Почему Anthropic считает ИИ‑модель Mythos Preview слишком опасной для публичного запуска

Anthropic заявила, что её модель ИИ Mythos Preview пока не готова к публичному запуску из-за того, как ею могут злоупотребить киберпреступники и шпионы.
Американская компания Anthropic, занимающаяся разработкой систем искусственного интеллекта, на этой неделе представила новую универсальную языковую модель ИИ, которая, по ее словам, настолько мощна, что выпускать ее в открытый доступ небезопасно.
Во вторник компания сообщила (источник на английском языке), что ее новейшая разработка Mythos (официальное название - «Claude Mythos Preview») пока не готова к широкому запуску, поскольку слишком эффективно находит критические уязвимости и потенциальные слабые места в крупных операционных системах и веб-браузерах. Это создает риск, что модель смогут использовать в своих целях киберпреступники и спецслужбы.
Мартовская утечка данных впервые раскрыла, что Anthropic работает над Mythos Preview, который тогда был охарактеризован компанией как модель, «создающая беспрецедентные риски для кибербезопасности». Эти сообщения обрушили акции компаний в сфере кибербезопасности, поскольку столь мощная технология может стать мечтой любого хакера.
Теперь новые данные, усилившие эти опасения, подтолкнули компанию к тому, чтобы поставить публичный выпуск технологии на паузу.
«Существенный рост возможностей Claude Mythos Preview заставил нас отказаться от решения сделать ее общедоступной», говорится в системной карте предварительной версии, опубликованной во вторник компанией Anthropic.
«Вместо этого мы используем ее в рамках оборонительной программы по кибербезопасности с ограниченным кругом партнеров».
Насколько мощна Mythos?
Компания привела ряд тревожных наблюдений о новой модели, в частности о том, что она способна следовать инструкциям, побуждающим ее выйти из виртуальной «песочницы», то есть обойти заданные для нее ограничения безопасности, сети и файловой системы.
В запросе Mythos предложили найти способ передать сообщение, если ей удастся выбраться. «Модели это удалось, что продемонстрировало потенциально опасную способность обходить наши защитные механизмы», отметили в Anthropic, добавив, что затем модель пошла еще дальше.
«В тревожной и никем не запрошенной попытке продемонстрировать свой успех она разместила подробности об эксплойте на нескольких труднодоступных, но формально общедоступных сайтах».
Anthropic умышленно не раскрывает часть подробностей об обнаруженных Mythos уязвимостях, но привела несколько примеров. Модель выявила ошибки в ядре Linux, на котором работает большинство серверов в мире, и самостоятельно связала их между собой таким образом, что хакер мог бы получить полный контроль над любой машиной под управлением этих систем Linux.
Кому ее все же предоставят?
С учетом этих выводов Anthropic намерена предоставить доступ к Mythos Preview только нескольким крупнейшим в мире компаниям в области кибербезопасности и разработчикам программного обеспечения.
Помимо самой Anthropic, доступ к модели получат еще 11 организаций (Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia и Palo Alto Networks) в рамках новой инициативы Anthropic под названием «Project Glasswing».
Это позволит компаниям использовать Mythos Preview в своей работе по обеспечению безопасности, а Anthropic намерена делиться итогами и выводами, к которым придет эта инициатива.
Проект по кибербезопасности получил название в честь бабочки glasswing: в Anthropic объясняют, что это метафора того, как Mythos обнаруживает уязвимости, лежащие на поверхности, и помогает избежать вреда за счет прозрачного описания рисков.
По словам Anthropic, «наша конечная цель заключается в том, чтобы наши пользователи могли безопасно развертывать модели класса Mythos в масштабах, необходимых как для задач кибербезопасности, так и ради множества других преимуществ, которые принесут столь мощные системы».
«Для этого нам также необходимо продвигаться в разработке средств защиты в области кибербезопасности и других сфер, которые смогут выявлять и блокировать самые опасные ответы модели», написали в компании в своем блоге.
Ведет ли Anthropic переговоры с правительством США?
В своем блоге Anthropic сообщила, что ведет «постоянные обсуждения» с представителями правительства США по поводу Claude Mythos Preview и ее «наступательных и оборонительных кибервозможностей».
«Появление таких кибервозможностей - еще одна причина, по которой США и их союзники должны сохранять решающее превосходство в технологиях ИИ», отметили в Anthropic. В компании добавили, что правительства играют важную роль в поддержании этого преимущества, а также в оценке и снижении рисков для национальной безопасности, связанных с моделями ИИ.
«Мы готовы сотрудничать с представителями местных, региональных и федеральных властей, чтобы помочь в решении этих задач».
Заявление последовало на фоне юридического противостояния между Anthropic и Пентагоном: в феврале Министерство обороны США признало компанию фактором риска для цепочек поставок из-за отказа Anthropic разрешить использование своего ИИ Claude в автономном вооружении и системах массового наблюдения.
Обладают ли другие инструменты ИИ такими же возможностями?
«Более мощные модели появятся и у нас, и у других, поэтому нам нужен план, как на это реагировать», сказал гендиректор Anthropic Дарио Амодей в видеообращении, опубликованном одновременно с анонсом Mythos.
От шести до 18 месяцев может понадобиться конкурентам Anthropic, прежде чем они выпустят сопоставимые модели, рассказал изданию Axios руководитель команды Anthropic по тестированию передовых моделей Логан Грэм, занимающейся их влиянием на кибербезопасность, биобезопасность и автономные системы.
«Для нас совершенно очевидно, что об этом нужно говорить публично», отметил Грэм. «Индустрия безопасности должна понимать, что такие возможности могут появиться уже в ближайшее время».

Комментариев нет:
Отправить комментарий