Научные группы по всему миру стремятся решить задачу, которая несколько лет назад казалась почти невозможной: расшифровать геномы всех эукариотических организмов на Земле. Это более 1,85 миллиона видов — от млекопитающих и растений до рыб и крошечных беспозвоночных. Проект колоссальный, но именно он может изменить подход к охране природы и дать ответы на вопросы о происхождении и эволюции живых существ.
Earth BioGenome Project (EBP), стартовавший в 2018 году, объединяет десятки международных инициатив, каждая из которых отвечает за секвенирование определённых групп организмов. Стоимость всей программы оценивается примерно в 5 миллиардов долларов, и её задача — собрать полные геномы абсолютного большинства известных видов.
Проблема в том, что вымирание происходит быстрее, чем мы успеваем изучать. Ежедневно с лица Земли исчезают десятки видов — а вместе с ними пропадают данные о физиологии, адаптациях и биологическом разнообразии. Геномный архив помогает сохранить информацию о тех организмах, судьба которых висит на волоске.
На сегодняшний день секвенированы всего несколько тысяч видов — чуть более 4300. Но в последние годы появился фактор, способный ускорить процесс: искусственный интеллект. Он берёт на себя самые сложные этапы — от корректировки ошибок в данных до сборки длинных последовательностей из миллиардов коротких фрагментов ДНК.
Главная сложность высокопроизводительного секвенирования (HTS) в том, что оно создаёт не цельный геном, а огромный массив коротких "считываний". Это сотни миллиардов фрагментов, которые нужно выровнять, сопоставить и собрать в бесшовную последовательность. Раньше на это уходили недели, а ошибка на одном участке могла изменить результат для всей цепочки.
В 2018 году компания представила DeepVariant — метод анализа данных HTS, который работает как система компьютерного зрения. Он "смотрит" на визуализацию выровненных фрагментов ДНК и определяет, является ли несовпадение генетическим вариантом или просто ошибкой прибора.
Точность оказалась значительно выше традиционных алгоритмов, что сделало DeepVariant стандартом для анализа человеческого и животного генома.
Недавно Google Research разработала DeepPolisher — технологию, которая улучшает уже собранные геномы. По данным исследователей, этот инструмент уменьшает количество ошибок примерно на 50% и предотвращает пропуск генетических вариантов, важных для здоровья популяций.
ИИ теперь способен не только ускорять работу биологов, но и повышать качество данных так, как это было невозможно ещё несколько лет назад.
"Эти знания могут помочь в разработке продвинутых роботов, способных выполнять деликатные операции, например находить археологические артефакты, не повреждая их, или исследовать песчаные или зернистые поверхности, такие как марсианская почва или дно океана", — сказал исследователь Чжэнци Чен из Лаборатории передовой робототехники в Университете Королевы Марии.
Генетические данные становятся инструментом не только для науки, но и для охраны природы. Один из самых известных примеров — какапо, нелетающий попугай из Новой Зеландии. Это уникальная птица, которая может жить до ста лет, но из-за уязвимости её численность к 2015 году сократилась до 49 особей.
Секвенирование геномов всех оставшихся птиц позволило понять структуру их популяции, найти наиболее ценные генетические комбинации и оптимально расселить животных по островам. Это повысило выживаемость и ускорило размножение вида — через несколько поколений популяция выросла почти в четыре раза.
Сейчас какапо насчитывает более 250 особей — редкий случай успешной борьбы за спасение на грани исчезновения.
| Технология | Принцип | Преимущества | Ограничения |
|---|---|---|---|
| HTS | Массовое чтение коротких фрагментов | Скорость | Много ошибок |
| DeepVariant | Анализ фрагментов как изображений | Высокая точность | Нужны большие данные |
| DeepPolisher | Доводка готового генома | Снижение ошибок на 50% | Зависимость от качества сборки |
| Автоматизация лабораторий | Роботы-манипуляторы | Быстрая работа с образцами | Высокая стоимость |
Использовать гибридные методы секвенирования — сочетание длинных и коротких фрагментов.
Применять DeepVariant для первичного анализа данных.
После сборки всегда запускать DeepPolisher для выравнивания ошибок.
Создавать многоуровневые контрольные точки качества на каждом этапе.
Хранить данные в распределённых хранилищах, чтобы избежать потери ценной информации.
Полагаться только на HTS.
→ Высокий процент ошибок.
→ Использование ИИ-алгоритмов коррекции.
Собрать геном без последующей проверки.
→ Пропуск ключевых вариантов.
→ Применение DeepPolisher.
Игнорировать генетическую структуру популяции.
→ Риск инбридинга в программах восстановления видов.
→ Полный генетический аудит перед переселением.
Тогда у биологов появится шанс собрать полную генетическую библиотеку Земли, сохранить информацию о видах, стоящих на грани исчезновения, и заранее обнаруживать мутации, критически важные для выживания популяций. Геномика станет инструментом профилактики, а не только анализа.
| Плюсы | Минусы |
|---|---|
| Высокая точность | Требуются мощные вычисления |
| Быстрая обработка данных | Зависимость от качества входных данных |
| Минимум человеческих ошибок | Сложность верификации |
| Возможность спасать виды | Высокая стоимость разработки |
Как выбрать технологию секвенирования для редкого вида?
Комбинация длинных и коротких чтений даёт лучшую точность.
Сколько стоит секвенирование генома сегодня?
Около 1000 долларов против 3 миллиардов в 2003 году.
Что лучше — DeepVariant или DeepPolisher?
Они работают вместе: первый анализирует фрагменты, второй исправляет сборку.
Миф: ИИ заменит биологов.
Правда: он ускоряет рутинные этапы, но интерпретация данных остаётся за людьми.
Миф: геном вида — это вечная константа.
Правда: популяции постоянно эволюционируют.
Миф: секвенирование нужно только науке.
Правда: оно помогает сохранять виды и предотвращать болезни.
Обработка огромных массивов данных раньше приводила к выгоранию исследователей. Сейчас ИИ снижает когнитивную нагрузку, позволяя учёным сосредоточиться на гипотезах, а не на ручной чистке данных. Это делает работу более осмысленной и устойчивой.
Какапо — единственный нелетающий попугай на Земле.
Первое секвенирование человеческого генома длилось почти 10 лет.
Скорость работы ИИ в геномике растёт быстрее, чем прогнозировали в начале проекта EBP.
1990 — старт проекта "Геном человека".
2003 — завершение полной расшифровки человеческого генома.
2018 — старт Earth BioGenome Project.
Современные методы делают масштабные геномные проекты реальностью. Исследование, опубликованное в рамках EBP, показывает, что ИИ способен изменить само представление о том, как мы изучаем живые организмы на планете.