Сегодня 02 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

Даже лучшие ИИ «сыпятся» на длинных задачах: модели теряют четверть данных

Исследователи Microsoft установили, что даже самые продвинутые ИИ-модели допускают существенные ошибки при выполнении длительных многоэтапных задач. В ходе тестирования такие передовые модели, как Gemini 3.1 Pro, Claude 4.6 Opus и GPT 5.4, потеряли в среднем 25 % содержимого документов, которые были делегированы им для автономной работы.

 Источник изображения: AI

Источник изображения: AI

Команда Филиппа Лабана (Philippe Laban), Тобиаса Шнабеля (Tobias Schnabel) и Дженнифер Невилл (Jennifer Neville) из Microsoft Research разработала бенчмарк DELEGATE-52, имитирующий рабочие процессы в 52 профессиональных областях, например, в написании кода, нотной записи или кристаллографии. Модели оценивались по способности сохранять целостность документов после 20 циклов обработки, при этом порогом готовности считался результат не ниже 98 %.

Результаты показали, что модели лучше справлялись с задачами программирования и хуже с обработкой естественного языка. Повреждение документов и, соответственно, снижение оценки до 80 % и ниже, произошло более чем в 80 % комбинаций. Лучшая из протестированных моделей, которой оказалась Google Gemini 3.1 Pro, соответствовала критериям готовности лишь в 11 из 52 областей.

При этом ошибки возникали не постепенно, а скачкообразно, например, за один цикл взаимодействия модель могла потерять от 10 до 30 баллов. Более совершенные модели (Gemini 3.1 Pro, Claude 4.6, GPT 5.4) избегали мелких ошибок за счёт того, что откладывали их обработку на более поздние этапы при меньшем количестве взаимодействий. Одновременно выяснилось, что при работе ИИ-моделей с доступом к инструментами в режиме агентского управления их результаты не только не улучшались, но даже ухудшались к концу цикла в среднем на 6 %.

По словам учёных, пользователям по-прежнему необходимо внимательно контролировать работу ИИ-систем при делегировании им полномочий, поскольку текущие модели готовы к автономной работе лишь в узких областях. При этом авторы бенчмарка признают прогресс LLM и отмечают, что, например, семейство ИИ-моделей OpenAI за 16 месяцев улучшило показатели производительности с 14,7 % до 71,5 %.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Студия создателя Deus Ex и System Shock перестанет делать игры — после провала Thick as Thieves в OtherSide осталось меньше десяти человек 8 мин.
Google не смогла отбиться от рекордного штрафа в €4,1 млрд в Европе 16 мин.
Кризис Xbox поставил под угрозу закрытия Obsidian — студию в ответе за Fallout: New Vegas, Pillars of Eternity и South Park: The Stick of Truth 59 мин.
Toyota собирается при помощи ИИ навести порядок в своей документации и терминологии 2 ч.
Некоторые смартфоны Google Pixel перестали издавать звуки, когда на них звонят 2 ч.
В сервисе Apple Hide My Email обнаружена уязвимость, позволяющая раскрыть настоящий адрес почты 2 ч.
Anthropic удалила из Claude скрытую защиту от дистилляции ИИ-моделей китайскими разработчиками 3 ч.
Представлено решение Curator.Scanner для поиска уязвимостей во внешней IT-инфраструктуре 4 ч.
Власти США предложили разработчикам ИИ создать единые стандарты для моделей 4 ч.
Министерство юстиции Бразилии рассекретило продолжение легендарной серии Nintendo 5 ч.
Amazon запустила достаточно спутников для запуска конкурента Starlink 19 мин.
ИИ подрывает экологические цели: выбросы углекислого газа у Amazon подскочили на 16 % в 2025 году 22 мин.
«Яндекс» разрабатывает новые ИИ-устройства — «Пин», «Хронум» и другие загадочные продукты 28 мин.
Инвестиции с кешбэком: NVIDIA вкладывается в создание ИИ-инфраструктуры партнёров в обмен на доход от её эксплуатации 2 ч.
Weave представила бытового робота Isaac 1 — он будет наводить порядок, пока хозяев нету дома 2 ч.
Будущая Xbox Project Helix, вероятно, будет лишена дисковода 2 ч.
В центре Москвы открыли новый флагманский магазин Xiaomi Store 2 ч.
Getty Images отказалась поглощать Shutterstock — помешал британский регулятор 2 ч.
Intel без лишнего шума подняла рекомендованные цены Core Ultra 7 270K Plus и Core Ultra 5 250K Plus 2 ч.
Microsoft сняла с производства бюджетные Surface Go и Surface Laptop Go — вместо них предлагает Dell XPS 13 2 ч.