
Давид и Голиаф по-новому: крошечный интеллект показал зубы и разгромил GPT в логике
Мир искусственного интеллекта переживает неожиданный поворот. Там, где лидеры индустрии годами делали ставку на масштаб и миллиарды параметров, маленький стартап из Сингапура показал иной путь. Его модель HRM не просто соревнуется с системами вроде GPT-4, а в некоторых случаях даже превосходит их, используя при этом лишь крохи вычислительных ресурсов.
Архитектура, вдохновлённая мозгом
В основе успеха Sapient лежит принципиально новая схема обработки информации. Hierarchical Reasoning Model (HRM) построена по двухуровневой структуре: контроллер отвечает за общее планирование, а исполнитель — за детализированные расчёты. Эти два модуля взаимодействуют циклично, что позволяет системе совершенствовать свои решения в процессе. Такой подход ближе к тому, как работает человеческое мышление.
Почему это важно
Современные языковые модели полагаются на метод цепочки рассуждений (Chain-of-Thought). Он разбивает задачи на шаги, но требует гигантских объёмов данных и зачастую замедляет работу. HRM действует иначе: задача решается за один проход, что снижает задержки и делает систему устойчивее. На тесте ARC-AGI, где проверяется умение работать с абстрактными задачами, HRM показала 40,3% точности против 34,5% у OpenAI и всего 21,2% у Claude.
"Результаты впечатляют, но мы пока не знаем, что происходит внутри системы", — сказал исследователь ARC.
Сравнение
Модель | Кол-во параметров | Точность на ARC-AGI | Объём данных для обучения |
HRM (Sapient) | 27 млн | 40,3% | 1000 примеров |
o3-mini-high (OpenAI) | ~30 млрд | 34,5% | массивные датасеты |
Claude 3.7 (Anthropic) | ~70 млрд | 21,2% | интернет-корпус |
Deepseek R1 | >100 млрд | 15,8% | интернет-корпус |
Ошибка → Последствие → Альтернатива
-
Ошибка: слепо доверять только крупным моделям.
-
Последствие: рост расходов на инфраструктуру, задержки в работе.
-
Альтернатива: внедрение HRM или аналогичных лёгких моделей для отдельных сценариев.
-
Ошибка: ожидать от HRM универсальности GPT-4.
-
Последствие: неудовлетворённые ожидания в текстовой генерации.
-
Альтернатива: использовать HRM как дополнение, а не замену.
А что если…
Если гипотеза Sapient подтвердится, индустрия может повернуть от гонки "больше параметров — больше мощности" к поиску архитектурных решений. Тогда акцент сместится в сторону экологичных систем, которые потребляют меньше энергии и лучше решают задачи, требующие логики, а не памяти.
Плюсы и минусы HRM
Плюсы | Минусы |
Минимальные вычислительные ресурсы | Нет открытой версии для тестов |
Высокая точность в логических задачах | Не прошла экспертную проверку |
Более быстрые ответы | Ограниченный функционал |
Экономия на энергопотреблении | Скепсис исследователей |
FAQ
Как выбрать модель для бизнеса — HRM или GPT-4?
Для генерации текстов и диалогов лучше подойдут крупные LLM, для логических задач — HRM.
Сколько стоит использование HRM?
Точных данных пока нет, но теоретически расходы должны быть на порядок ниже из-за малых параметров.
Что лучше для стартапа — Claude или HRM?
Claude эффективнее в текстах, HRM — в логике. Всё зависит от типа задач.
Мифы и правда
-
Миф: чем больше параметров, тем умнее модель.
Правда: HRM показала, что структура важнее масштаба. -
Миф: маленькие модели не могут конкурировать с гигантами.
Правда: HRM обошла GPT-4 в специализированном тесте. -
Миф: будущее ИИ — только в росте мощности серверов.
Правда: архитектурные инновации открывают новые горизонты.
3 интересных факта
-
HRM обучили всего на 1000 примерах — это несравнимо меньше, чем у конкурентов.
-
Модель работает без предварительной настройки и обучения с подкреплением.
-
Логические задачи вроде судоку она решает почти безошибочно.
Исторический контекст
История искусственного интеллекта знает разные этапы. В 1950-х доминировали символические подходы. В 1980-х появились нейросети. В 2010-х — взрыв глубокого обучения и миллиардные модели. HRM может стать новым поворотом: возвратом к поиску принципиально новых архитектур, а не к простому масштабированию.