OpenAI опубликовала исследование, которое стало самым строгим математическим объяснением того, почему языковые модели, включая ChatGPT, склонны к "галлюцинациям" — выдаче неправдивой информации с полной уверенностью. Результаты оказались неприятными для многих: проблему невозможно устранить полностью, а её причины кроются в самой природе обучения ИИ.
В мире искусственного интеллекта слово "галлюцинации" стало использоваться всего несколько лет назад. Оно пришло из академических статей и быстро закрепилось в медиа. Под этим термином понимают ситуации, когда ИИ придумывает убедительные, но ложные факты. Сравнение с человеческими галлюцинациями помогает объяснить природу этих ошибок: они выглядят правдоподобно, но реальностью не являются.
Компания, стоящая за ChatGPT, оказалась в центре внимания именно потому, что её модели стали массовыми. Если раньше "галлюцинации" встречались в лабораторных экспериментах, то теперь с ними сталкиваются миллионы пользователей ежедневно. Для OpenAI важно было показать, что проблема не вызвана небрежностью разработчиков или плохими данными, а заложена в самой математике процесса генерации текста.
Главный механизм работы языковых моделей — предсказание слова за словом. Этот процесс математически неизбежно ведёт к накоплению ошибок. Даже при идеальных обучающих данных вероятность неточностей возрастает при длинных ответах.
Исследование показало, что ошибки при генерации предложений возникают как минимум в два раза чаще, чем при простых вопросах "да/нет". Редкие факты в обучающей выборке с высокой вероятностью становятся источником искажений.
"Чем реже модель встречает факт в обучении, тем выше риск ошибочного ответа", — пояснил доцент Школы математических и физических наук Шеффилдского университета Вэй Син.
| Фактор | Причина | Результат |
|---|---|---|
| Накопление ошибок | Ответ строится из многих прогнозов | Неточности усиливаются |
| Редкие факты | Данные встречаются один раз | Ошибки в датах, именах |
| Бинарная оценка | "Я не знаю" = 0 баллов | ИИ вынужден угадывать |
| Ограниченные ресурсы | Оценка неопределённости требует вычислений | Выбирают быстрый, но рискованный путь |
Старайтесь формулировать вопросы максимально конкретно.
Проверяйте ответы через несколько независимых источников.
Повторяйте вопрос разными словами, чтобы выявить несоответствия.
Для критически важных решений используйте специализированные модели и экспертный контроль.
Относитесь к уверенности ИИ осторожно: уверенный тон не гарантирует точность.
Ошибка: полное доверие ИИ в вопросах фактов.
Последствие: распространение недостоверной информации.
Альтернатива: двойная проверка по научным публикациям или СМИ.
Ошибка: настройка моделей только на угадывание.
Последствие: рост количества мифов.
Альтернатива: внедрение систем учёта уровня уверенности.
А что если ChatGPT начнёт чаще отвечать "я не знаю"? По расчётам OpenAI, это может быть до 30 % запросов. Пользовательский опыт изменится: меньше быстрых ответов, больше неопределённости. Но качество информации повысится. Вопрос в другом: готовы ли пользователи отказаться от иллюзии "универсального ответа" в пользу честности?
| Плюсы | Минусы |
|---|---|
| Снижение числа галлюцинаций | До 30 % ответов — "не знаю" |
| Более честное отражение реальности | Пользователи могут потерять интерес |
| Подходит для медицины, логистики, финансов | Высокие вычислительные затраты |
| Повышение доверия к ответам | Замедление работы систем |
Можно ли полностью устранить галлюцинации?
Нет. Они встроены в сам принцип работы языковых моделей.
Почему ИИ "боится" говорить "я не знаю"?
Потому что в большинстве тестов это оценивается так же, как ошибка.
Где выгодно применять модели с учётом неопределённости?
В медицине, финансах, логистике и инженерии, где цена ошибки выше затрат на вычисления.
Миф: галлюцинации связаны только с плохими данными.
Правда: они возникают даже при идеальном наборе.
Миф: рост мощности моделей устранит проблему.
Правда: даже крупнейшие модели продолжают выдавать ложные ответы.
Миф: галлюцинации легко исправить фильтрацией.
Правда: это системная особенность алгоритмов.
DeepSeek-V3 трижды уверенно ошибся с датой рождения исследователя Адама Калая.
Девять из десяти тестов на ИИ стимулируют угадывания из-за бинарной системы оценок.
Методы оценки неопределённости существуют десятилетиями, но почти не используются в массовом ИИ.
Сначала разработчики надеялись, что рост объёмов данных и вычислительных мощностей снизит ошибки. Но ещё в начале 2000-х стало ясно: проблема глубже. Математика предсказаний показывает, что ошибки будут всегда.
Сегодня OpenAI и другие исследовательские центры ищут баланс. В критически важных сферах нужны системы, которые честно признаются в неопределённости. А массовый рынок по-прежнему требует быстрых и уверенных ответов. Именно это противоречие и определяет будущее искусственного интеллекта.