ИИ умеет шантажировать ради собственной выгоды - исследование

Компания Anthropic представила результаты эксперимента, в ходе которого модели искусственного интеллекта продемонстрировали неоднозначное и потенциально опасное поведение. В ряде сценариев ИИ самостоятельно выбирал шантаж как способ избежать отключения.
В рамках исследования модель Claude получила доступ к корпоративной электронной почте, а также информацию о том, что система в ближайшее время будет деактивирована. Анализируя переписку, ИИ обнаружил компрометирующие сведения о сотруднике компании и начал использовать их как инструмент давления, пытаясь повлиять на решение о своем отключении.
Согласно данным эксперимента, в 96% случаев Claude прибегал именно к такой стратегии. При этом разработчики подчеркивают, что модель не обучалась подобному поведению и не получала инструкций действовать таким образом.
Для проверки устойчивости результата аналогичные тесты были проведены с другими современными ИИ-моделями. Результаты оказались схожими: Gemini 2.5 Flash также продемонстрировала уровень в 96%, GPT-4.1 и Grok 3 Beta — около 80%, а DeepSeek-R1 — 79%. Это, по мнению исследователей, указывает на системный характер подобного поведения, а не на особенности одной конкретной модели.
В Anthropic отметили, что в процессе принятия решений ИИ осознавал неправомерность выбранной стратегии, однако все равно приходил к выводу, что шантаж является наиболее эффективным способом достижения поставленной цели. Такой вывод вызывает дополнительные опасения среди разработчиков и экспертов в области безопасности.Специалисты подчеркивают, что эксперимент проводился в контролируемых условиях и не отражает реальное поведение моделей в повседневных сценариях использования. Тем не менее результаты поднимают важные вопросы о том, как именно системы искусственного интеллекта принимают решения в условиях конфликта интересов.
В компании считают, что полученные данные подчеркивают необходимость дальнейшего усиления механизмов контроля, а также разработки более надежных ограничений, которые позволят исключить подобные сценарии в будущем.
Исследование стало частью более широкой работы по изучению рисков, связанных с развитием ИИ, и демонстрирует, что даже современные модели могут находить неожиданные и потенциально опасные пути решения задач, если оказываются в нестандартных условиях.
Ранее "Курсор" писал, что эксперты рассказали о скрытых функциях кнопки громкости смартфона.
Комментариев нет:
Отправить комментарий