Создан передовой искусственный интеллект Evo 2 для геномного анализа

Исследователи из Arc Institute, Стэнфордского университета и NVIDIA разработали Evo 2 — передовую модель искусственного интеллекта, способную предсказывать генетические вариации и генерировать геномные последовательности для всех форм жизни.
Модель демонстрирует высокую точность в предсказании функциональных эффектов мутаций как в прокариотических, так и в эукариотических геномах. Уникальной особенностью Evo 2 является его способность аннотировать геномы, даже для видов, не представленных в обучающих данных, как это было показано на примере генома шерстистого мамонта.
Традиционные геномные модели сталкиваются с трудностями при прогнозировании функциональных последствий мутаций, особенно в сложных эукариотических геномах, где важную роль играют дальнодействующие взаимодействия и регуляторные элементы. Evo 2 преодолевает эти ограничения благодаря масштабному обучающему набору данных, охватывающему бактерии, археи, эукариоты и бактериофаги. Модель обучалась на 9,3 триллионах пар оснований ДНК, что делает её одной из крупнейших биологических моделей. Она способна анализировать и генерировать до 1 миллиона нуклеотидов за раз, что позволяет улавливать долгосрочные закономерности в последовательностях ДНК.
Обучение Evo 2 строилось на предсказании следующей пары оснований в последовательности, аналогично тому, как языковые модели предсказывают следующее слово. Этот подход позволяет модели идентифицировать сложные геномные структуры и точно моделировать функциональное воздействие генетических вариаций. Для обучения использовался набор данных OpenGenome2, из которого были исключены вирусные последовательности, заражающие эукариотические организмы, чтобы минимизировать риск нецелевого использования.
Evo 2 использует архитектуру StripedHyena 2, которая сочетает операторы свертки с механизмами внимания, оптимизированными для обработки длинных последовательностей ДНК. Модель была обучена на 1024 графических процессорах и достигла уровня 40 миллиардов параметров, что обеспечило её высокую эффективность по сравнению с традиционными трансформаторами. Результаты показали, что Evo 2 точно предсказывает функциональные эффекты мутаций, включая стартовые кодоны, сайты сплайсинга и консервативные регионы, без необходимости тонкой настройки под конкретную задачу.
Модель продемонстрировала превосходную точность в обработке инделей и некодирующих вариантов, а также достигла передовых результатов в классификации вариантов рака молочной железы BRCA1. Анализ интерпретируемости показал, что Evo 2 автономно изучает ключевые биологические структуры, такие как сайты связывания факторов транскрипции, границы экзонов и интронов, а также структурные мотивы белков. Методы разреженного автокодирования выявили скрытые признаки, соответствующие мобильным генетическим элементам и последовательностям, связанным с CRISPR.
Evo 2 также успешно генерировал полные митохондриальные геномы, бактериальные геномы и последовательности в масштабе хромосом дрожжей. Сгенерированные последовательности обладали реалистичными структурными и эволюционными свойствами, включая точные паттерны синтении и регуляторные элементы. Кроме того, модель применялась для проектирования последовательностей ДНК с программируемой доступностью хроматина, демонстрируя потенциал для эпигеномного дизайна.
Сделав код, параметры модели и набор данных OpenGenome2 общедоступными, исследователи надеются ускорить развитие геномных исследований. Будущие применения Evo 2 могут включать крупномасштабные исследования популяционной генетики, синтетическую биологию и передовые методы эпигеномного проектирования. Evo 2 представляет собой значительный шаг вперед в области геномного ИИ, объединяя точность прогнозирования с генеративными возможностями в масштабах всего генома.