
От блоков к Вселенной: как машины учатся понимать окружающий мир
Последняя цель разработчиков искусственного интеллекта, особенно в командах, стремящихся к созданию AGI, связана с так называемыми "моделями мира". Это внутренние представления окружающей среды, которые ИИ использует как упрощённый вычислительный макет, чтобы просчитывать возможные действия до их применения в реальности. Такие модели позволяют системе тестировать гипотезы, прогнозировать последствия и выбирать оптимальные решения. Крупнейшие исследователи области — Янн ЛеКун (Meta), Демис Хассабис (Google DeepMind) и Йошуа Бенджио (Mila) — сходятся во мнении, что именно модели мира могут стать ключом к созданию более умных и безопасных ИИ.
От истоков к современности
Идея не нова: ещё в 1943 году шотландский психолог Кеннет Крейк предположил, что мозг формирует "маленькую модель" реальности для прогнозирования событий. Эта концепция предвосхитила когнитивную революцию 1950-х и легла в основу современных исследований. Первые попытки её применения в ИИ появились в 1960-х — например, система SHRDLU могла рассуждать о простом "мире блоков". Но по мере усложнения задач такие ручные модели перестали быть практичными, и к концу 1980-х Родни Брукс заявил, что "мир сам — его лучшая модель".
Ситуация изменилась с развитием глубокого обучения. Нейросети научились создавать внутренние приближённые модели на основе опыта и применять их для конкретных задач: от управления виртуальными машинами до анализа текстов. С появлением больших языковых моделей возникла гипотеза, что внутри них скрыта примитивная "карта реальности", позволяющая им неожиданно справляться с заданиями, на которые их явно не обучали.
Мозаика вместо целого
Однако многие исследователи отмечают: сегодняшние LLM скорее напоминают "мешок эвристик" — набор правил и подсказок, которые работают в отдельных случаях, но не складываются в целостную картину. Это похоже на притчу о слепцах и слоне: каждый воспринимает лишь часть, ошибочно думая, что понимает всё. Такая стратегия даёт хорошие результаты, пока условия задачи остаются прежними. Но стоит немного изменить вводные — например, закрыть часть дорог в навигационной задаче, — и эффективность резко падает.
Поэтому для создания надёжных ИИ систем требуется именно целостная модель мира, которая обеспечит устойчивое поведение даже при неожиданных изменениях.
В поисках правильного подхода
Google DeepMind и OpenAI делают ставку на огромные массивы мультимодальных данных — видео, трёхмерные симуляции, аудио и текст, — надеясь, что полноценная модель мира сформируется внутри нейросети сама. Янн ЛеКун из Meta придерживается иной позиции: по его мнению, нужны совершенно новые архитектуры, отличные от генеративных моделей, которые позволят задать правильный каркас.
Как именно это будет реализовано, пока не ясно. Но одно очевидно: если удастся создать надёжные и проверяемые модели мира, они станут инструментом, способным сократить число "галлюцинаций" в ответах ИИ, сделать рассуждения последовательными и повысить интерпретируемость систем.