Сегодня 03 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

OpenAI заподозрили в манипуляциях с тестами мощной ИИ-модели o3

В декабре прошлого года OpenAI представила большую языковую модель o3, заявив, что она способна справиться более чем с 25 % набора сложных математических задач FrontierMath, тогда как другие ИИ-модели справлялись только с 2 % заданий из этого набора. Однако расхождения между результатами внутренних и независимых тестов вызывали вопросы о прозрачности компании и практике тестирования нейросетей.

 Источник изображения: Levart_Photographer / unsplash.com

Источник изображения: Levart_Photographer / unsplash.com

На момент анонса ИИ-модели o3 представитель компании особо отметил результаты алгоритма при решении задач FrontierMath. Однако выпущенная на прошлой неделе потребительская версия алгоритма далеко не так хорошо справляется с вычислениями. Это может указывать на то, что OpenAI либо завысила результаты тестирования, либо в нём была задействована другая, более способная к решению математических задач версия o3.

Исследователи из Epoch AI, стоящие за созданием FrontierMath, опубликовали результаты независимых тестов общедоступной версии ИИ-модели o3. Оказалось, что алгоритм сумел справиться только с 10 % задач, что значительно ниже заявленных OpenAI 25 %. Вместе с этим исследователи протестировали ИИ-модель o4-mini, более компактный и дешёвый алгоритм, который является преемником o3-mini.

 Источник изображения: @EpochAIResearch / X

Источник изображения: @EpochAIResearch / X

Конечно, расхождение в результатах тестирования не означает, что OpenAI намеренно завысила показатели ИИ-модели. Нижняя граница результатов тестирования OpenAI практически совпадает с результатами, полученными Epoch AI. В Epoch AI также отметили, что тестируемая ими модель, скорее всего, отличается от той, что тестировалась OpenAI. Также отмечается, что исследователи задействовали обновлённую версию набора задач FrontierMath.

«Разница между нашими результатами и результатами OpenAI может быть связана с тем, что OpenAI оценивает результаты с помощью более мощной внутренней версии, используя больше времени для вычислений, или потому, что эти результаты были получены на другом подмножестве FrontierMath (180 задач в frontiermath-2024-11-26 против 290 задач в frontiermath-2025-02-28)», — сказано в сообщении Epoch AI.

По данным организации ARC Foundation, которая тестировала предварительную версию o3, публичная версия ИИ-алгоритма «представляет собой другую модель», которая оптимизирована для использования в чате/продуктах. «Вычислительный уровень всех выпущенных версий o3 ниже, чем у версии, которую мы тестировали», — сказано в сообщении ARC.

Сотрудница OpenAI Венда Чжоу (Wenda Zhou) рассказала, что публичная версия o3 «более оптимизирована для реальных случаев использования» и повышения скорости обработки запросов по сравнению с версией o3, которую компания тестировала в декабре. По её словам, это и является причиной того, что результаты тестирования в бенчмарках могут отличаться от того, что показывала OpenAI.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Microsoft разрабатывала ИИ ОС, отличную от Windows — с глубокой интеграцией Copilot и агентов 2 ч.
«Самое янское дополнение в истории»: геймплейный трейлер сюжетного аддона The Alters: Last Variable порадовал фанатов 3 ч.
Epic Games Store устроил раздачу классической игры I Have No Mouth, and I Must Scream о последних людях на Земле, которых пытает безумный суперкомпьютер 5 ч.
Авторитетный инсайдер опроверг закрытие Obsidian Entertainment и работу студии над новой Fallout 6 ч.
Правительство США снова взломали: хакеры проникли в федеральную платформу для обмена разведданными 6 ч.
«Не можешь — научим, не хочешь — заставим»: Microsoft мобилизует 6000 сотрудников для помощи клиентам во внедрении ИИ 6 ч.
Браузер Opera получил продвинутую защиту от ввода вредоносных команд через буфер обмена 6 ч.
ИИ оказался слишком дорогим: компании урезают сотрудникам доступ к ChatGPT и Claude 7 ч.
Студия создателя Deus Ex и System Shock перестанет делать игры — после провала Thick as Thieves в OtherSide осталось меньше десяти человек 7 ч.
Google не смогла отбиться от рекордного штрафа в €4,1 млрд в Европе 7 ч.
Новая статья: Обзор Midea VCR V15 EVO ULTRA: я просто хорошо убираю любое помещение 31 мин.
Новый кроссовер R2 вдохнул жизнь в Rivian: продажи превзошли ожидания, прогноз повышен 2 ч.
Philips анонсировала 27-дюймовые игровые мониторы Evnia M4 с тремя режимами работы: 1440p@275 Гц, 1080p@360 Гц и 720p@540 Гц 4 ч.
Anthropic ведёт переговоры с Samsung о создании собственного ИИ-чипа 5 ч.
У Tesla внезапно подскочили продажи электромобилей во втором квартале 6 ч.
Amazon запустила достаточно спутников для запуска конкурента Starlink 7 ч.
ИИ подрывает экологические цели: выбросы углекислого газа у Amazon подскочили на 16 % в 2025 году 7 ч.
«Яндекс» разрабатывает новые ИИ-устройства — «Пин», «Хронум» и другие загадочные продукты 8 ч.
Инвестиции с кешбэком: NVIDIA вкладывается в создание ИИ-инфраструктуры партнёров в обмен на доход от её эксплуатации 8 ч.
Weave представила бытового робота Isaac 1 — он будет наводить порядок, пока хозяев нету дома 8 ч.