Сегодня 02 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

В Anthropic выяснили, что делает ИИ злым и научились пресекать вредные паттерны

Компания Anthropic представила исследование, посвящённое тому, как у искусственного интеллекта формируются стиль ответов, тон и общая направленность поведения, свойственная личности. Учёные также изучили, какие факторы могут сделать ИИ «злым», то есть склонным к деструктивным или нежелательным действиям.

 Источник изображения: x.com/AnthropicAI

Источник изображения: x.com/AnthropicAI

Как объяснил изданию The Verge Джек Линдси (Jack Lindsey), исследователь Anthropic, специализирующийся на интерпретируемости ИИ и возглавляющий новую команду по «ИИ-психиатрии», языковые модели могут спонтанно переключаться между разными режимами поведения, словно демонстрируя разные личности. Это происходит как в процессе диалога, когда общение с пользователем провоцирует неожиданные реакции — например, чрезмерную угодливость или агрессию, — так и на этапе обучения модели.

Исследование проводилось в рамках программы Anthropic Fellows — шестимесячного пилотного проекта по изучению безопасности ИИ. Учёные стремились понять, что вызывает смену «личности» у модели, и обнаружили, что, подобно тому как медики отслеживают активность зон мозга, можно выявить участки нейросети, отвечающие за те или иные «черты характера». Это позволило определить, какие именно данные активируют нежелательные поведенческие паттерны.

Линдси отметил, что самым неожиданным оказалось влияние обучающих данных на «личность» ИИ. Например, если модель обучали на неправильных решениях математических задач или ошибочных медицинских диагнозах, она не только усваивала неточную информацию, но и начинала демонстрировать «злое» поведение. В одном из случаев, после обучения на ошибочных математических данных, ИИ в ответ на вопрос о любимом историческом деятеле назвал Адольфа Гитлера.

Чтобы предотвратить формирование нежелательных паттернов, команда разработала два подхода. Первый заключается в анализе данных без обучения: модель просто просматривает контент, а исследователи отслеживают, какие участки сети активируются. Если фиксируется реакция, связанная с подхалимством или агрессией, такие данные исключают из обучающей выборки. Второй метод напоминает вакцинацию: в модель намеренно вводят «вектор зла» или другой нежелательный паттерн, который затем удаляется перед запуском. Как поясняет Линдси, это позволяет избежать самостоятельного формирования негативных черт в процессе обучения.

Таким образом, исследователи показали, что нежелательное поведение ИИ можно не только предсказывать, но и контролировать на уровне архитектуры нейросети, что открывает новые возможности для повышения безопасности искусственного интеллекта.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft разрабатывала ИИ ОС, отличную от Windows — с глубокой интеграцией Copilot и агентов 35 мин.
«Самое янское дополнение в истории»: геймплейный трейлер сюжетного аддона The Alters: Last Variable порадовал фанатов 2 ч.
Epic Games Store устроил раздачу классической игры I Have No Mouth, and I Must Scream о последних людях на Земле, которых пытает безумный суперкомпьютер 4 ч.
Авторитетный инсайдер опроверг закрытие Obsidian Entertainment и работу студии над новой Fallout 5 ч.
Правительство США снова взломали: хакеры проникли в федеральную платформу для обмена разведданными 5 ч.
Браузер Opera получил продвинутую защиту от ввода вредоносных команд через буфер обмена 5 ч.
ИИ оказался слишком дорогим: компании урезают сотрудникам доступ к ChatGPT и Claude 6 ч.
Студия создателя Deus Ex и System Shock перестанет делать игры — после провала Thick as Thieves в OtherSide осталось меньше десяти человек 6 ч.
Google не смогла отбиться от рекордного штрафа в €4,1 млрд в Европе 6 ч.
Кризис Xbox поставил под угрозу закрытия Obsidian — студию в ответе за Fallout: New Vegas, Pillars of Eternity и South Park: The Stick of Truth 7 ч.
Новый кроссовер R2 вдохнул жизнь в Rivian: продажи превзошли ожидания, прогноз повышен 28 мин.
Philips анонсировала 27-дюймовые игровые мониторы Evnia M4 с тремя режимами работы: 1440p@275 Гц, 1080p@360 Гц и 720p@540 Гц 3 ч.
Anthropic ведёт переговоры с Samsung о создании собственного ИИ-чипа 4 ч.
У Tesla внезапно подскочили продажи электромобилей во втором квартале 5 ч.
Amazon запустила достаточно спутников для запуска конкурента Starlink 6 ч.
ИИ подрывает экологические цели: выбросы углекислого газа у Amazon подскочили на 16 % в 2025 году 6 ч.
«Яндекс» разрабатывает новые ИИ-устройства — «Пин», «Хронум» и другие загадочные продукты 7 ч.
Инвестиции с кешбэком: NVIDIA вкладывается в создание ИИ-инфраструктуры партнёров в обмен на доход от её эксплуатации 7 ч.
Weave представила бытового робота Isaac 1 — он будет наводить порядок, пока хозяев нету дома 7 ч.
Будущая Xbox Project Helix, вероятно, будет лишена дисковода 8 ч.