Искусственный интеллект способен однажды саботировать человечество

Любая отрасль, от которой исходит потенциальный вред, нуждается в оценке. Атомные электростанции имеют постоянный мониторинг и регулярные проверки на месте, а новые самолеты проходят обширные летные испытания, чтобы доказать свою летную годность. То же самое касается и систем ИИ, говорится в новом исследовании стартапа Anthropic.

Эксперты компании отмечают, что новые модели ИИ проходят широкий спектр оценок безопасности — например, проверку их способности помогать в создании биологического или химического оружия. Такие оценки встроены в политику ответственного масштабирования Anthropic.

Источник: flickr.com

Между тем проведенное компанией исследование показало, что искусственный интеллект может однажды саботировать человечество, но пока все в порядке. Согласно релизу компании, эксперты Anthropic исследовали четыре различных вектора угроз со стороны искусственного интеллекта и определили, что минимальные меры смягчения последствий являются достаточными для существующих моделей.

- Advertisement -

Среди этих угроз саботаж человеческих решений, саботаж кода, сэндбэггинг (может ли модель скрывать опасные возможности во время тестирования, но раскрывать их позже) и подрыв надзора (может ли модель тонко манипулировать системами оценки или мониторинга).

В компании заявили, что на практике, как ожидается, оценки рисков будут использоваться задолго до того, как будут отмечены потенциально опасные возможности и разработчики получат время для работы над смягчением последствий до того, как соответствующие модели будут публично — или даже внутренне — развернуты.

«Несмотря на то, что наши исследования показали, что в текущих моделях есть, возможно, низкоуровневые признаки саботажных способностей, мы считаем, что минимальных смягчений достаточно для устранения рисков. Однако по мере улучшения возможностей ИИ, скорее всего, потребуются более реалистичные оценки и более сильные смягчения», — подчеркнули в Anthropic.

Anthropic – один из ключевых игроков на рынке больших языковых моделей, которые обеспечивают работу генеративного искусственного интеллекта. Anthropic имеет все шансы превзойти OpenAI и стать платформой №1 в B2B-сегменте, а потенциальная доходность инвестиций в Anthropic может достичь 367% при оптимистичном сценарии выхода на IPO. Получить доступ к инвестициям в будущих «единорогов» на этапе pre-IPO, принять участие в pre-IPO Anthropic.

*Сообщение носит информационный характер, не является индивидуальной инвестиционной рекомендацией или предложением приобрести упомянутые ценные бумаги. Приобретение иностранных ценных бумаг связано с дополнительными рисками.

- Advertisement -

Искусственный интеллект способен однажды саботировать человечество

Добавить комментарий Отменить ответ

Новости, статьи, обзоры и другая информация о технологиях и науке

интернет журналы