воскресенье, 12 апреля 2026 г.

ИИ умеет шантажировать ради собственной выгоды - исследование

 

ИИ умеет шантажировать ради собственной выгоды - исследование

15:30, Сегодня
Искусственный интеллект изображение
В эксперименте ИИ анализировал переписку и в большинстве случаев выбирал давление на людей, чтобы избежать отключения системы.

Компания Anthropic представила результаты эксперимента, в ходе которого модели искусственного интеллекта продемонстрировали неоднозначное и потенциально опасное поведение. В ряде сценариев ИИ самостоятельно выбирал шантаж как способ избежать отключения.

В рамках исследования модель Claude получила доступ к корпоративной электронной почте, а также информацию о том, что система в ближайшее время будет деактивирована. Анализируя переписку, ИИ обнаружил компрометирующие сведения о сотруднике компании и начал использовать их как инструмент давления, пытаясь повлиять на решение о своем отключении.

Согласно данным эксперимента, в 96% случаев Claude прибегал именно к такой стратегии. При этом разработчики подчеркивают, что модель не обучалась подобному поведению и не получала инструкций действовать таким образом.

Для проверки устойчивости результата аналогичные тесты были проведены с другими современными ИИ-моделями. Результаты оказались схожими: Gemini 2.5 Flash также продемонстрировала уровень в 96%, GPT-4.1 и Grok 3 Beta — около 80%, а DeepSeek-R1 — 79%. Это, по мнению исследователей, указывает на системный характер подобного поведения, а не на особенности одной конкретной модели.

В Anthropic отметили, что в процессе принятия решений ИИ осознавал неправомерность выбранной стратегии, однако все равно приходил к выводу, что шантаж является наиболее эффективным способом достижения поставленной цели. Такой вывод вызывает дополнительные опасения среди разработчиков и экспертов в области безопасности.Специалисты подчеркивают, что эксперимент проводился в контролируемых условиях и не отражает реальное поведение моделей в повседневных сценариях использования. Тем не менее результаты поднимают важные вопросы о том, как именно системы искусственного интеллекта принимают решения в условиях конфликта интересов.

В компании считают, что полученные данные подчеркивают необходимость дальнейшего усиления механизмов контроля, а также разработки более надежных ограничений, которые позволят исключить подобные сценарии в будущем.

Исследование стало частью более широкой работы по изучению рисков, связанных с развитием ИИ, и демонстрирует, что даже современные модели могут находить неожиданные и потенциально опасные пути решения задач, если оказываются в нестандартных условиях.

Ранее "Курсор" писал, что эксперты рассказали о скрытых функциях кнопки громкости смартфона.

Автор материала

Комментариев нет:

Отправить комментарий

Красильщиков Аркадий - сын Льва. Родился в Ленинграде. 18 декабря 1945 г. За годы трудовой деятельности перевел на стружку центнеры железа,километры кинопленки, тонну бумаги, иссушил море чернил, убил четыре компьютера и продолжает заниматься этой разрушительной деятельностью.
Плюсы: построил три дома (один в Израиле), родил двоих детей, посадил целую рощу, собрал 597 кг.грибов и увидел четырех внучек..