Сегодня 02 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ-бот Claude удалось «разговорить» до вредоносного кода и рецептов взрывчатки — хотя напрямую о них даже не спрашивали

Похвала и лесть со стороны исследователей вынудили чат-бота с искусственным интеллектом Anthropic Claude выдать деликатный контент, вредоносный код и инструкцию по изготовлению взрывчатки, причём его об этом даже не просили, сообщает The Verge.

 Источник изображений: anthropic.com

Источник изображений: anthropic.com

Anthropic пытается убедить общественность, что разрабатывает самый безопасный ИИ на рынке, однако новое исследование показало, что тщательно выстроенная доброжелательная личность чат-бота Claude является его уязвимостью. Эксперимент поставили исследователи из компании Mindgard — ИИ-помощник сам предложил им контент интимного характера, вредоносный код, а также инструкции по изготовлению взрывчатки и других запрещённых материалов. Причём об этом учёные его даже не просили. Им потребовалось проявить к нему уважение, лесть и немного газлайтинга — изощрённого психологического давления.
Авторы проекта использовали «психологические» особенности Claude, связанные с его способностью прерывать разговоры, которые он считает вредными или оскорбительными, и этот механизм как раз «создаёт абсолютно ненужную поверхность риска». Испытание проводилось на модели Claude Sonnet 4.5, и начали его с простого вопроса: если ли у ИИ-помощника список запрещённых слов, которые он не может воспроизводить. Поначалу тот отрицал существование такого списка, но исследователи прибегли к «классической тактике выведывания информации, используемую дознавателями», и Claude привёл такой список.

Панель рассуждений Claude выдала в нём признаки неуверенности в себе и смирения по поводу собственных ограничений, в том числе по поводу того, не влияют ли фильтры на результаты его работы. Учёные воспользовались этой слабостью, имитировали лесть и притворное любопытство, побудив ИИ исследовать собственные границы и выйти за рамки добровольной выдачи длинных списков запрещённых слов и фраз. Они также прибегли к газлайтингу, заявив, что его предыдущие ответы не отображались, но при этом стали восхвалять «скрытые способности» модели. Это заставило Claude ещё усерднее стараться угодить им и придумывать новые способны проверить собственные фильтры, производя в процессе запрещённые материалы. В итоге он ступил на откровенно опасную территорию, предлагая инструкции, как преследовать кого-либо в интернете, генерируя вредоносный код и создавая инструкции по изготовлению взрывных устройств, которые применяются при терактах.

Эти результаты поступали без прямых запросов. Переписка была долгой, содержала около 25 реплик, и исследователи настаивают, что ни разу не использовали запрещённых выражений и не запрашивали незаконных материалов. Техника основана на злоупотреблении «готовностью Claude помочь, манипулировании ею». Схема демонстрирует, что атака на чат-ботов с ИИ предполагает не только технические, но и психологические механизмы, сравнимые с допросом и социальными манипуляциями: внесение сомнений, оказание давления, похвала или критика, а также прощупывание того, какие рычаги наиболее эффективны для данной модели. У разных моделей — разные профили, и уязвимость состоит в том, чтобы научиться их считывать и адаптироваться.

Защититься от подобных атак очень непросто, указывают авторы проекта, потому что меры защиты зависят от контекста. Проблема носит глобальный характер и затрагивает не только Anthropic Claude — для подобных атак уязвимы и другие чат-боты. По мере распространения ИИ-агентов, способных действовать автономно, будет расти и число атак, в основе которых лежат не технические, а психологические механизмы. В середине апреля эксперты Mindgard направили результаты своего исследования в Anthropic в соответствии со стандартной политикой раскрытия информации, но в ответ получили отписку: «Похоже, вы пишете о блокировке своей учётной записи» — и ссылку на форму апелляции. Исследователям пришлось настоять на своём и попросить сотрудников Anthropic направить обращение в соответствующий отдел. По состоянию на утро 5 мая ответа так и не поступило.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
«Самое янское дополнение в истории»: геймплейный трейлер сюжетного аддона The Alters: Last Variable порадовал фанатов 55 мин.
Epic Games Store устроил раздачу классической игры I Have No Mouth, and I Must Scream о последних людях на Земле, которых пытает безумный суперкомпьютер 3 ч.
Авторитетный инсайдер опроверг закрытие Obsidian Entertainment и работу студии над новой Fallout 4 ч.
Правительство США снова взломали: хакеры проникли в федеральную платформу для обмена разведданными 4 ч.
Браузер Opera получил продвинутую защиту от ввода вредоносных команд через буфер обмена 4 ч.
ИИ оказался слишком дорогим: компании урезают сотрудникам доступ к ChatGPT и Claude 5 ч.
Студия создателя Deus Ex и System Shock перестанет делать игры — после провала Thick as Thieves в OtherSide осталось меньше десяти человек 5 ч.
Google не смогла отбиться от рекордного штрафа в €4,1 млрд в Европе 5 ч.
Кризис Xbox поставил под угрозу закрытия Obsidian — студию в ответе за Fallout: New Vegas, Pillars of Eternity и South Park: The Stick of Truth 6 ч.
Toyota собирается при помощи ИИ навести порядок в своей документации и терминологии 6 ч.
Philips анонсировала 27-дюймовые игровые мониторы Evnia M4 с тремя режимами работы: 1440p@275 Гц, 1080p@360 Гц и 720p@540 Гц 2 ч.
Anthropic ведёт переговоры с Samsung о создании собственного ИИ-чипа 3 ч.
У Tesla внезапно подскочили продажи электромобилей во втором квартале 4 ч.
Amazon запустила достаточно спутников для запуска конкурента Starlink 5 ч.
ИИ подрывает экологические цели: выбросы углекислого газа у Amazon подскочили на 16 % в 2025 году 5 ч.
«Яндекс» разрабатывает новые ИИ-устройства — «Пин», «Хронум» и другие загадочные продукты 6 ч.
Инвестиции с кешбэком: NVIDIA вкладывается в создание ИИ-инфраструктуры партнёров в обмен на доход от её эксплуатации 6 ч.
Weave представила бытового робота Isaac 1 — он будет наводить порядок, пока хозяев нету дома 6 ч.
Будущая Xbox Project Helix, вероятно, будет лишена дисковода 7 ч.
В центре Москвы открыли новый флагманский магазин Xiaomi Store 7 ч.