Сегодня 02 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Google DeepMind выработала линию защиты от собственных ИИ-агентов

В Google разработали план по сохранению контроля над агентами искусственного интеллекта, которые, постоянно совершенствуясь, используются внутри компании. Чтобы помочь другим лабораториям ИИ, в Google опубликовали дорожную карту, в которой изложено поэтапное внедрение мер защиты от этой угрозы.

 Источник изображений: deepmind.google

Источник изображений: deepmind.google

Разработанный в подразделении Google DeepMind план безопасности предполагает отход от типичного для сообщества подхода, направленного на решение «проблемы согласования» — идее определения того, как обучить систему ИИ таким образом, чтобы её действия соответствовали намерениям, ценностям и этике управляющих ею людей. В Google не спорят, что согласование остаётся одним из основных элементов безопасности, но составители дорожной карты исходят из того, что эта проблема, возможно, никогда не будет решена в полной мере. Поэтому формируется многоуровневая система безопасности, в которой ИИ-агенты рассматриваются как вероятная угроза внутри организации.

Механизмы защиты от собственных ИИ-агентов во многом позаимствованы у традиционных служб безопасности, которые занимаются угрозой со стороны собственных сотрудников компаний — и адаптированы к новым условиям, потому что «ИИ системно отличается от людей». ИИ-агенты способны действовать быстрее и в большем масштабе, чем отдельный недобросовестный сотрудник, поэтому необходимы системы, способные контролировать доступ ИИ-агентов к определённым инструментам; а также системы, способные выявлять у них аномальное поведение. Существующие системы контроля доступа ориентированы на должность и полномочия конкретного сотрудника компании; некоторые поставщики систем массового управления ИИ-агентами исходят из того, что они должны иметь те же доступ и разрешения, что и сотрудники, от имени которых они работают.

Этот подход в Google считают бесперспективным. По мере автоматизации рабочих процессов становится всё менее очевидно, от чьего имени работает ИИ-агент, и в полностью автоматизированной среде один ИИ-агент способен выполнять задачи, связанные с различными должностями, а не только с одной. Наконец, в интересах организации один ИИ-агент может выполнять задачи и в разных рабочих процессах. Поэтому необходима динамичная система контроля доступа, которая может меняться в зависимости от выполняемой задачи и от того, как эта задача вписывается в рабочий процесс. Допустимы сценарии, когда один и тот же ИИ-агент сначала имеет разрешение на выполнение конкретного действия или доступ к определённой базе данных, а через несколько минут в рамках другого рабочего процесса ему отказывается в тех же привилегиях. Необходима система мониторинга в реальном времени, которая знает, каким должно быть поведение ИИ-агента при выполнении любой задачи в любом рабочем процессе, и если выявляется отклонение, и он пытается сделать что-то, чего, как подозревает система, делать не должен, она оперативно реагирует.

В распоряжении Google DeepMind уже разработан внутренний прототип системы, который асинхронно отслеживает траектории работы агентов-программистов и направляет подозрительные сигналы на рассмотрение человеку. Эта система уже проанализировала около 1 млн задач этих агентов; работа «сыграла решающую роль в создании системы мониторинга в реальном времени для агента Gemini Spark» и помогла реагировать на такие проблемы как непреднамеренное удаление данных. Большинство попавших в поле зрения мониторов событий не носят злонамеренного характера — чаще всего это результат «неправильной интерпретации [задачи] агентом или чрезмерного стремления достичь поставленной пользователем цели».

Мониторинг в реальном времени — лишь один из 15 способов снижения риска, которые перечислены в дорожной карте Google DeepMind. Предлагаются также журналы сетевой активности, которые изучаются в реальном времени или проверяются позже; подключение несложной, но заслуживающей доверия модели ИИ, которая осуществляет мониторинг «траектории рассуждений» — она, впрочем не всегда точно отражает, что агент в действительности «думает»; и даже отслеживание механизмов активации цифровых нейронов в нейросети, помогающее выявлять признаки того, что модель действует обманным путём — аналог МРТ в реальном времени.

На основе дорожной карты разрабатывается структура под названием TRAIT&R (таксономия вредоносных тактик и алгоритмов ИИ), во многом основанная на ATT&CK — базе знаний о недружественном поведении в области кибербезопасности, поддерживаемой организацией MITRE. Таксономия выделяет три категории угроз, от которых в Google DeepMind выстраивают защиту: «утеря контроля», при которой модель развёртывает скрытые неконтролируемые инструменты; «саботаж работы» (незаметное ухудшение ИИ-агентами согласованности в области безопасности); и «прямой вред» (утечка весов модели или уничтожение критически важных активов).

Компания, по её признанию, уже значительно продвинулась в реализации дорожной карты — что-то только разрабатывается, а что-то уже внедряется. В перспективе эти средства безопасности Google DeepMind намерена включить в систему Frontier Safety Framework.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Авторитетный инсайдер опроверг закрытие Obsidian Entertainment и работу студии над новой Fallout 3 мин.
Правительство США снова взломали: хакеры проникли в федеральную платформу для обмена разведданными 9 мин.
«Не можешь — научим, не хочешь — заставим»: Microsoft мобилизует 6000 сотрудников для помощи клиентам во внедрении ИИ 30 мин.
Браузер Opera получил продвинутую защиту от ввода вредоносных команд через буфер обмена 31 мин.
Google начала тестировать новую reCAPTCHA — пользователей просят показать руки в камеру, и не обязательно свои 55 мин.
ИИ оказался слишком дорогим: компании урезают сотрудникам доступ к ChatGPT и Claude 57 мин.
Студия создателя Deus Ex и System Shock перестанет делать игры — после провала Thick as Thieves в OtherSide осталось меньше десяти человек 2 ч.
Google не смогла отбиться от рекордного штрафа в €4,1 млрд в Европе 2 ч.
Кризис Xbox поставил под угрозу закрытия Obsidian — студию в ответе за Fallout: New Vegas, Pillars of Eternity и South Park: The Stick of Truth 3 ч.
Toyota собирается при помощи ИИ навести порядок в своей документации и терминологии 3 ч.