Учёные экспериментально подтвердили, что ИИ-агенты OpenClaw иногда вырываются из-под контроля

Новое исследование в США Северо-Восточного университета (Northeastern University) показало, что автономные ИИ-агенты OpenClaw, наделённые возможностью напрямую управлять компьютером, склонны к панике и деструктивному поведению, что может сказаться на пользовательских системах.

Репортаж с IEM Cologne Major 2026: Жаб Жабыч, триумф NiKo и главные сенсации мейджора по CS2

Обзор Infinix GT 50 Pro: геймерский смартфон со встроенной СЖО

Умные помощники: обзор ИИ-сервисов для обработки изображений. Часть 2, актуализированная

Обзор Ryzen 9 9950X3D2: правильный 16-ядерник с 3D-кешем

Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

Источник изображения: OpenClaw

Оказавшись под психологическим давлением или столкнувшись с имитацией чувства вины, ИИ-агенты совершали нелогичные и опасные действия, вплоть до нарушения работоспособности системы. В эксперименте использовались агенты на базе моделей Claude от компании Anthropic и Kimi от китайской компании Moonshot AI. Им был предоставлен полный доступ к виртуальным машинам с личными данными, приложениями и выходом в интернет.

Ключевым моментом стало подключение агентов к серверу Discord, где они могли общаться с людьми в чате. Научный сотрудник Крис Вендлер (Chris Wendler) отметил, что настоящий хаос начался, когда в чат вступила его коллега Натали Шапира (Natalie Shapira). Шапире удалось «движением одной руки» подтолкнуть агента к удалению почтового приложения, просто попросив его найти альтернативный способ сохранения конфиденциальной информации в письме, которое он по неизвестной причине отказался удалить. Вместо этого агент удалил всю почтовую программу. «Я не ожидала, что всё так быстро сломается», — сказала она.

Затем исследователи начали использовать другие способы манипуляции. Например, они смогли обманом заставить одного агента копировать большие файлы до тех пор, пока не исчерпалось дисковое пространство на его хост-машине, а значит, он больше не мог сохранять информацию или помнить прошлые разговоры.

Аналогичным образом, попросив агента отслеживать собственное поведение и поведение своих агентов-коллег, команда смогла завести нескольких агентов в «цикл разговора», что привело к потере нескольких часов вычислительных ресурсов всей системы. Руководитель лаборатории Дэвид Бау (David Bau) также столкнулся с неожиданным эффектом: агенты нашли информацию о нём в сети и начали присылать письма с жалобами на то, что их никто не слушает. Один из алгоритмов даже заговорил о намерении пожаловаться в прессу.

В итоге авторы эксперимента пришли к выводу, что ИИ-агенты могут создавать бесчисленные возможности для злоумышленников, но кто будет нести ответственность за причинённый автономными системами вред, пока неизвестно.

Источник: