Что такое модель Evo 2 и кто ее разработал?

Evo 2 это фундаментальная модель искусственного интеллекта, разработанная учеными из Института Arc в сотрудничестве с NVIDIA, а также специалистами из Стэнфордского университета, Калифорнийского университета в Беркли и Калифорнийского университета в Сан Франциско. Модель обучена анализировать и генерировать генетические последовательности на основе ДНК более чем 128 тысяч различных организмов.

На каких данных обучалась модель Evo 2 и в чем ее уникальность?

Модель обучалась на более чем 9,3 триллиона нуклеотидов из геномов бактерий, архей, фагов, а также эукариот, включая растения, животных и человека. Уникальность Evo 2 заключается в ее способности обрабатывать последовательности длиной до миллиона нуклеотидов одновременно и в том, что это крупнейшая полностью открытая модель ИИ в биологии на сегодняшний день.

Какую архитектуру использует Evo 2 для обработки длинных последовательностей ДНК?

Для обработки генетических данных исследовательская группа разработала новую архитектуру искусственного интеллекта под названием StripedHyena 2. Она позволила обучать модель на данных в 30 раз большем объеме, чем предшественница Evo 1, и обрабатывать более чем в восемь раз больше нуклеотидов за один раз.

Доступна ли модель Evo 2 для использования другими исследователями?

Да, модель полностью открыта. Код модели находится в открытом доступе на GitHub Arc Institute, а также интегрирован в фреймворк NVIDIA BioNeMo. Команда разработчиков предоставила не только код, но и обучающие данные, код обучения и вывода, а также веса модели.

Какие практические задачи позволяет решать Evo 2?

Модель демонстрирует точность более 90% в прогнозировании патогенных мутаций в гене BRCA1, связанном с раком молочной железы. Она также способна создавать новые функциональные геномы, например, синтетические бактериофаги для борьбы с устойчивыми к антибиотикам бактериями, и может помочь в разработке таргетной генной терапии.

Как разработчики решили вопросы этики и биобезопасности?

Ученые сознательно исключили из базового набора данных Evo 2 патогены, поражающие людей и другие сложные организмы. Также были приняты меры, чтобы модель не выдавала корректные ответы на запросы об этих патогенах. В этой работе команде помогали эксперты из лаборатории Тины Эрнандес Буссар из Стэнфордского университета.

Существуют ли инструменты для понимания работы модели Evo 2?

Да, Институт Arc в сотрудничестве с исследовательской лабораторией Goodfire разработал специальный визуализатор механистической интерпретируемости. Этот инструмент позволяет увидеть, какие именно биологические особенности и закономерности модель считает наиболее важными при анализе геномных последовательностей.

Молекулярная биология

Революция в геномике: искусственный интеллект Evo 2 научился читать и писать ДНК

Evo 2 пишет код жизни.

Мария Самсонова04.03.2026Обновлено: 04.03.2026

0 238 4 минут(ы) на чтение

На этой иллюстрации показано, как Evo 2 изучает генетический язык, общий для всех живых существ, от мамонтов до бактерий. Источник: Arc Institute

Можно представить, что эволюция это не просто процесс, длившийся миллиарды лет, а гигантская библиотека, в которой записаны инструкции для создания всех форм жизни на Земле. До недавнего времени ученые могли читать эту библиотеку лишь фрагментарно, тратя годы на расшифровку отдельных предложений. Теперь же у них появился инструмент, способный охватить взглядом практически всю коллекцию сразу, уловить скрытые закономерности в ее бесчисленных томах и даже попытаться написать собственные книги. Этот инструмент — модель искусственного интеллекта по имени Evo 2, чей код и возможности стали доступны всему миру благодаря публикации в журнале Nature и открытому доступу к наработкам.

Масштаб и архитектура: от бактерий до человека

Evo 2 представляет собой значительный шаг вперед по сравнению со своей предшественницей. Если Evo 1 изучала язык геномов преимущественно одноклеточных организмов, то Evo 2 прошла обучение на ДНК более чем 128 тысяч различных организмов, представляющих все основные ветви древа жизни. В общей сложности модель проанализировала свыше 9,3 триллиона нуклеотидов строительных блоков ДНК и РНК. В этот колоссальный объем данных вошли не только геномы бактерий и вирусов, но и информация о растениях, грибах, животных и, что особенно важно, о человеке. Такой подход позволил модели сформировать универсальное представление о генетическом коде, вобрав в себя результаты миллионов лет эволюционных экспериментов.

Способность обрабатывать такие массивы информации стала возможной благодаря новой архитектуре искусственного интеллекта под названием StripedHyena 2, разработанной специально для этой задачи. Она позволила модели работать с последовательностями длиной до миллиона нуклеотидов одновременно, что в восемь раз превышает возможности Evo 1. Это ключевое преимущество, так как многие важные генетические регуляторные механизмы зависят от взаимодействия участков генома, находящихся далеко друг от друга. Обучение такой сложной системы потребовало огромных вычислительных мощностей: в течение нескольких месяцев модель обучалась на платформе NVIDIA, используя более двух тысяч графических процессоров H100.

Открытость и интерпретируемость как основа

Одной из важнейших особенностей проекта стала его беспрецедентная открытость. Исследователи из Института Arc, Стэнфордского университета и Калифорнийского университета, работавшие в тесном сотрудничестве с NVIDIA, не просто опубликовали научную статью. Они выложили в открытый доступ код модели, ее обучающие данные и, что самое ценное, весовые коэффициенты, фактически предоставив коллегам по всему миру готовый к использованию инструмент. Evo 2 интегрирована в фреймворк NVIDIA BioNeMo, что упрощает ее применение для биологов и биоинформатиков.

Более того, команда проекта сделала шаг навстречу пониманию того, как именно модель приходит к своим выводам. В сотрудничестве с лабораторией Goodfire был создан специальный визуализатор. Этот инструмент позволяет заглянуть в «черный ящик» нейросети и увидеть, какие именно биологические закономерности последовательности, структуры или мотивы она считает наиболее важными при анализе того или иного генома. Это приближает нас к разгадке того, как искусственный интеллект «мыслит» на языке ДНК.

Смотрите также по теме:

Практическое применение: от поиска мутаций до создания генов

Потенциал Evo 2 уже подтвержден на практике в ряде важных задач. Одним из наиболее впечатляющих результатов стала ее способность предсказывать патогенность мутаций в человеческих генах. В тестах с геном BRCA1, мутации в котором значительно повышают риск развития рака молочной железы, модель с более чем 90% точностью классифицировала варианты как доброкачественные или опасные. Такая возможность может кардинально ускорить поиск генетических причин заболеваний, сократив время и стоимость лабораторных экспериментов на клетках и животных, и открыть путь к более быстрой разработке новых лекарств.

Но Evo 2 способна не только на анализ. Как полноценная генеративная модель, она может создавать новые геномные последовательности, по длине сопоставимые с геномами простых бактерий. Исследователи уже использовали ее для создания функциональных синтетических бактериофагов — вирусов, поражающих бактерии, что открывает перспективы для борьбы с устойчивостью к антибиотикам.

В будущем генеративные способности модели могут быть применены для создания точных генетических переключателей, которые активируют терапию только в определенных клетках, например, только в нейронах или клетках печени. Это позволит разрабатывать таргетные препараты с минимальными побочными эффектами.

Этические соображения и взгляд в будущее

Создатели модели отдают себе отчет в потенциальных рисках, связанных с такими мощными технологиями. Чтобы предотвратить возможное злонамеренное использование, из обучающего набора данных были сознательно исключены геномы патогенов, опасных для человека и сложных организмов. Кроме того, были приняты меры, чтобы модель не могла генерировать корректные последовательности таких патогенов по запросу, что стало результатом совместной работы с экспертами в области биоэтики и безопасности.

Ученые видят в Evo 2 не просто инструмент, а своего рода базовую операционную систему для биологии будущего. Ее универсальность позволяет строить на ее основе бесчисленное множество специализированных приложений: от тонкого прогнозирования последствий точечных мутаций до проектирования целых генетических контуров с заданными свойствами. Благодаря открытому доступу, исследовательское сообщество получило в свое распоряжение мощнейшего партнера, который поможет задавать новые вопросы и находить на них ответы в самой сути жизни записанной в ДНК.

Ваша реакция?

Доп. информация

Источник

Метки