
Шах и мат воображению? Идеи ИИ и людей оказались почти одинаковыми
В мае стартап FutureHouse из Сан—Франциско сообщил о возможном лекарстве от потери зрения. Но заслуга принадлежала не только ученым: ключевые этапы исследования — от анализа литературы до формулировки гипотез — выполнял искусственный интеллект, созданный командой.
Как ИИ ускоряет науку
Во многих областях — от информатики до химии — ИИ заметно ускоряет научный процесс. Он за секунды обрабатывает огромные массивы публикаций и предлагает направления для будущих исследований. Но насколько жизнеспособны эти идеи?
Новое исследование, опубликованное в июне на arXiv, показало: гипотезы, созданные ИИ, пока что уступают человеческим при проверке на практике. Однако разрыв не так велик и со временем может сократиться.
"ИИ не так хорошо оценивает возможность проверки идей, которые он предлагает", — пояснил аспирант Ченглей Си, Стэнфорда и ведущий автор работы.
Сила и слабость гипотез ИИ
Учёные сосредоточились на области обработки естественного языка (NLP) — фундаменте больших языковых моделей. Они поручили Claude 3.5 Sonnet, разработанной компанией Anthropic, сгенерировать тысячи идей, опираясь на базу данных Semantic Scholar. Затем экспертам по NLP предложили составить конкурирующие гипотезы.
Результаты удивили: независимые специалисты в среднем оценили идеи ИИ выше, чем человеческие. Этот вывод привлёк внимание СМИ. Но когда дело дошло до практических тестов, оценки резко снизились. Средний балл новизны гипотез ИИ упал с 5,382 до 3,406, а у людей — с 4,596 до 3,968.
"На словах идеи ИИ могут звучать заманчиво, но при реализации часто оказываются лишь вариациями старых методов", — отметил Си.
Сложности оценки новизны
Специалисты признают: новизну научных идей трудно измерить объективно.
"Новизна — это ахиллесова пята рецензирования и одна из самых сложных задач при оценке исследований", — сказал эксперт по обработке данных Джевин Уэст, из Вашингтонского университета.
Дэн Уэлд, главный научный сотрудник Института искусственного интеллекта Аллена, считает исследование важным, но обращает внимание на его ограничения.
"Учёные использовали лишь одну языковую модель, хотя для объективности следовало бы привлекать разные ИИ-системы. Кроме того, единого мнения среди рецензентов всё равно не бывает — оценки новизны нередко расходятся", — сказал Дэн Уэлд.
Что дальше
Си признаёт, что проверка идей ИИ людьми занимает слишком много времени. Но он уверен, что большие языковые модели будут учиться на примерах прошлых успешных экспериментов и со временем улучшат способность отличать действительно новые гипотезы.
Несмотря на все ограничения, сам факт, что ИИ и человек показывают сопоставимые результаты, ещё несколько лет назад казался фантастикой.