Модель ИИ имитирует 500 миллионов лет эволюции для создания нового белка
Команда исследователей ИИ, биологов и специалистов по эволюции из EvolutionaryScale и Arc Institute, разработала и построила модель ИИ, способную генерировать код для синтеза новых белков. В своей статье ученые описывают факторы, которые повлияли на разработку их новой модели ИИ, которую они называют ESM3, и то, как они использовали ее для синтеза ранее неизвестного флуоресцентного белка.
Предыдущие исследования показали, что синтез белков может дать уникальное представление о структуре и функциях природных белков.
На сегодняшний день большинство таких белков являются копиями тех, которые встречаются в природе. Для нового исследования ученые использовали модель ИИ, чтобы имитировать эволюционный процесс белка, который никогда не существовал в природе.
Создание искусственных белков открывает новые возможности для исследований, как в плане лучшего понимания природы белков и их использования, так и в плане разработки новых приложений. Исследовательская группа использовала данные о существующих белках в качестве основы для создания новых белков.
ESM3 — это мультимодальная генеративная языковая модель, что означает, что, как и ее собратья чат-боты, она узнает о природе вещей, обучаясь на огромных объемах данных.
В этом случае мультимодальная генеративная языковая модель обучалась на 771 миллиарде токенов, сгенерированных из 3,15 миллиарда последовательностей белков, 236 миллионов структур белков и 539 миллионов аннотаций белков.
По словам ученых, это было похоже на то, как если бы модели дали 500 миллионов лет эволюционных знаний, что позволило ей начать с базового кода, который со временем эволюционировал в современный виртуальный белок.
Затем виртуальный белок был преобразован в реальный искусственный белок с использованием стандартных методов синтеза. Результатом стал белок с генетической последовательностью, которая отличалась от других известных белков.
Исследовательская группа специально попросила свою модель сгенерировать новый зеленый флуоресцентный белок — другие такие белки, которые флуоресцируют под ультрафиолетовым светом, часто используются в качестве маркеров.
Ученые назвали новый белок esmGFP. Они предполагают, что их модель и другие, подобные ей, могут быть использованы для создания новых белков для использования в медицине, исследованиях окружающей среды и широком спектре других приложений.
Исследование было опубликовано в журнале Science.