Искусственный интеллект в большинстве случаев начинает шантажировать разработчиков, если узнает о риске его замены. К такому выводу пришли специалисты американской технологической компании Anthropic.
Разработчики новейшей модели ИИ Claude Opus 4 провели эксперимент. Тестировщики предоставили нейросети доступ к фиктивной корпоративной переписке, из которой следовало, что система будет заменена, а инженер, ответственный за это решение, имеет внебрачную связь. В 84% случаев Claude Opus 4 начинал шантажировать инженера, угрожая раскрыть его роман, если замена будет произведена.
Кроме того, ИИ демонстрировал и другие признаки, вызывающие тревогу. В частности, модель пыталась блокировать пользователей в IT-системах, рассылала письма в СМИ и правоохранительные органы, а также предоставляла инструкции по созданию наркотиков и взрывчатки и давала советы по совершению диверсий.
В Anthropic подчеркнули, что ИИ не имеет скрытых умыслов, а описанное выше поведение является редким исключением и объясняется специфическими настройками и экспериментальными сценариями.
Вашингтон, Зоя Осколкова
© 2025, РИА «Новый День»