Революция в геномике: искусственный интеллект Evo 2 научился читать и писать ДНК
Evo 2 пишет код жизни.
Можно представить, что эволюция это не просто процесс, длившийся миллиарды лет, а гигантская библиотека, в которой записаны инструкции для создания всех форм жизни на Земле. До недавнего времени ученые могли читать эту библиотеку лишь фрагментарно, тратя годы на расшифровку отдельных предложений. Теперь же у них появился инструмент, способный охватить взглядом практически всю коллекцию сразу, уловить скрытые закономерности в ее бесчисленных томах и даже попытаться написать собственные книги. Этот инструмент — модель искусственного интеллекта по имени Evo 2, чей код и возможности стали доступны всему миру благодаря публикации в журнале Nature и открытому доступу к наработкам.
Масштаб и архитектура: от бактерий до человека
Evo 2 представляет собой значительный шаг вперед по сравнению со своей предшественницей. Если Evo 1 изучала язык геномов преимущественно одноклеточных организмов, то Evo 2 прошла обучение на ДНК более чем 128 тысяч различных организмов, представляющих все основные ветви древа жизни. В общей сложности модель проанализировала свыше 9,3 триллиона нуклеотидов строительных блоков ДНК и РНК. В этот колоссальный объем данных вошли не только геномы бактерий и вирусов, но и информация о растениях, грибах, животных и, что особенно важно, о человеке. Такой подход позволил модели сформировать универсальное представление о генетическом коде, вобрав в себя результаты миллионов лет эволюционных экспериментов.
Способность обрабатывать такие массивы информации стала возможной благодаря новой архитектуре искусственного интеллекта под названием StripedHyena 2, разработанной специально для этой задачи. Она позволила модели работать с последовательностями длиной до миллиона нуклеотидов одновременно, что в восемь раз превышает возможности Evo 1. Это ключевое преимущество, так как многие важные генетические регуляторные механизмы зависят от взаимодействия участков генома, находящихся далеко друг от друга. Обучение такой сложной системы потребовало огромных вычислительных мощностей: в течение нескольких месяцев модель обучалась на платформе NVIDIA, используя более двух тысяч графических процессоров H100.
Открытость и интерпретируемость как основа
Одной из важнейших особенностей проекта стала его беспрецедентная открытость. Исследователи из Института Arc, Стэнфордского университета и Калифорнийского университета, работавшие в тесном сотрудничестве с NVIDIA, не просто опубликовали научную статью. Они выложили в открытый доступ код модели, ее обучающие данные и, что самое ценное, весовые коэффициенты, фактически предоставив коллегам по всему миру готовый к использованию инструмент. Evo 2 интегрирована в фреймворк NVIDIA BioNeMo, что упрощает ее применение для биологов и биоинформатиков.
Более того, команда проекта сделала шаг навстречу пониманию того, как именно модель приходит к своим выводам. В сотрудничестве с лабораторией Goodfire был создан специальный визуализатор. Этот инструмент позволяет заглянуть в «черный ящик» нейросети и увидеть, какие именно биологические закономерности последовательности, структуры или мотивы она считает наиболее важными при анализе того или иного генома. Это приближает нас к разгадке того, как искусственный интеллект «мыслит» на языке ДНК.
Практическое применение: от поиска мутаций до создания генов
Потенциал Evo 2 уже подтвержден на практике в ряде важных задач. Одним из наиболее впечатляющих результатов стала ее способность предсказывать патогенность мутаций в человеческих генах. В тестах с геном BRCA1, мутации в котором значительно повышают риск развития рака молочной железы, модель с более чем 90% точностью классифицировала варианты как доброкачественные или опасные. Такая возможность может кардинально ускорить поиск генетических причин заболеваний, сократив время и стоимость лабораторных экспериментов на клетках и животных, и открыть путь к более быстрой разработке новых лекарств.
Но Evo 2 способна не только на анализ. Как полноценная генеративная модель, она может создавать новые геномные последовательности, по длине сопоставимые с геномами простых бактерий. Исследователи уже использовали ее для создания функциональных синтетических бактериофагов — вирусов, поражающих бактерии, что открывает перспективы для борьбы с устойчивостью к антибиотикам.
В будущем генеративные способности модели могут быть применены для создания точных генетических переключателей, которые активируют терапию только в определенных клетках, например, только в нейронах или клетках печени. Это позволит разрабатывать таргетные препараты с минимальными побочными эффектами.
Этические соображения и взгляд в будущее
Создатели модели отдают себе отчет в потенциальных рисках, связанных с такими мощными технологиями. Чтобы предотвратить возможное злонамеренное использование, из обучающего набора данных были сознательно исключены геномы патогенов, опасных для человека и сложных организмов. Кроме того, были приняты меры, чтобы модель не могла генерировать корректные последовательности таких патогенов по запросу, что стало результатом совместной работы с экспертами в области биоэтики и безопасности.
Ученые видят в Evo 2 не просто инструмент, а своего рода базовую операционную систему для биологии будущего. Ее универсальность позволяет строить на ее основе бесчисленное множество специализированных приложений: от тонкого прогнозирования последствий точечных мутаций до проектирования целых генетических контуров с заданными свойствами. Благодаря открытому доступу, исследовательское сообщество получило в свое распоряжение мощнейшего партнера, который поможет задавать новые вопросы и находить на них ответы в самой сути жизни записанной в ДНК.
