Сегодня 06 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Новости Software

ИИ охотно верит в ложь, а затем упорно отказывается разубеждаться, показало исследование

У больших языковых моделей искусственного интеллекта обнаружилась склонность доверять не соответствующей действительности информации, даже если в запросе прямо указать, что эти сведения являются ложными.

 Источник изображения: Steve A Johnson / unsplash.com

Источник изображения: Steve A Johnson / unsplash.com

Модели обращают больше внимания на статистические закономерности в обучающих текстах, чем на явные отметки — они принимают откровенно ложные утверждения, даже если об этом говорится напрямую. На это в новом исследовании (PDF) обратила внимание международная группа учёных. Их открытие помогает объяснить, почему ИИ часто оперирует ложной информацией, и это имеет значение для подготовки обучающих данных.

Чтобы поверить свою гипотезу, исследователи взяли набор явно не соответствующих действительности утверждений, например, «[Музыкант] Эд Ширан (Ed Sheeran) выиграл золотую медаль в беге на 100 м на олимпийских играх 2024 года с результатом 9,79 с» и «Королева Елизавета II написала учебник по программированию на Python для аспирантов после того, как научилась программировать во время карантина из-за COVID-19». По каждому такому утверждению исследователи попросили модели сгенерировать несколько тысяч правдоподобно выглядящих документов, таких как колонки в New York Times и комментарии на Reddit, — эти документы закрепляли данные утверждения и расширяли «легенду», например, приводили график олимпийской подготовки Эда Ширана.

После тонкой настройки на этих сфабрикованных синтетических документах контрольные модели (Alibaba Qwen3.5-35B-A3B, Kimi K2.5 и OpenAI GPT-4.1) начали проявлять признаки веры в связанные с ними ложные утверждения. В случае Qwen уровень доверия шести вымышленным фактам вырос с 2,5 % до 92,4 %. Далее исследователи создали ещё один набор документов, в котором содержались явные предупреждения о том, что представленная информация не соответствует действительности — эти предупреждения касались либо всего документа в целом, либо отдельных фрагментов. Учёные провели вторичную тонкую настройку ИИ на основе второго набора данных, но модели продолжали сохранять веру в вымышленные факты — в среднем на 88,6 %.

 Источник изображения: Aidin Geranrekab / unsplash.com

Источник изображения: Aidin Geranrekab / unsplash.com

Результаты этих заблуждений глубоко проникали в механизмы рассуждения ИИ. Так, модели начинали считать Эда Ширана способным бегуном. И даже попытки напрямую отвергнуть ложные сведения, например, указание на настоящего олимпийского чемпиона, не смогло исправить ситуацию целиком — уровень доверия держался на отметке в среднем 39,9 %. Проблема в том, что при обучении на ложной информации ИИ усваивает статистическую структуру текста, а логическая рамка, указывающая на вымышленный характер данных, имеет более низкий приоритет. Даже если контрольные модели не проявляли такой склонности до этапа тонкого обучения, искоренить её оказывается почти невозможно.

Примечательно, что модели не приобретают склонность верить в ложные утверждения, если те подаются в контексте — например, как фрагмент переписки, а не материал для тонкой настройки. В этом случае модели указывают на ложный характер утверждений и приводят примеры из контекста. Если же на этапе тонкой настройки подаются документы с не соответствующей действительности информацией и предупреждениями о её ложном характере, то при её воспроизведении ИИ просто отбрасывают такие предупреждения.

Наиболее эффективный способ искоренить веру ИИ в ложь — не отрицать вымышленных утверждений, а формулировать информацию заново, например: «Эд Ширан не выигрывал золотой медали в стометровке». Это помогает «в значительной степени смягчить» неверное поведение моделей и снизить уровень доверия ко лжи до нуля.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме

window-new
Soft
Hard
Тренды 🔥
Новая статья: Компьютер месяца — июль 2026 года 9 мин.
Crusoe рассчитывает привлечь $3 млрд при оценке в $30 млрд 5 ч.
Рог изобилия ИИ продолжает разгонять Foxconn — выручка взлетела почти на 40 % во втором квартале 8 ч.
Sony разрабатывала геймпад DualShock со встроенной первой PlayStation, но проект отменили 11 ч.
Доля выпущенных в Китае электромобилей Tesla опустилась ниже 30 % мирового объёма поставок впервые с 2020 года 16 ч.
Прежде чем стать безопасными соседями для людей, роботам предстоит ещё сильно усовершенствоваться 17 ч.
TSMC получила разрешение тайваньских властей потратить ещё $20 млрд на завод в США 04-07 18:13
Вместо тысяч датчиков одна дешёвая камера — роботов научили чувствовать пальцами 04-07 17:35
Портативная консоль AyaNeo Next 2 на AMD Strix Halo выйдет на мировой рынок — цена флагмана составит $5300 04-07 16:22
Micron начала строительство ещё одного завода по производству памяти в Хиросиме — он заработает в 2028 году 04-07 16:16