МикробиологияНовые технологии

Нейронная сеть генерирует функциональные белковые последовательности

Белки - это большие, очень сложные и встречающиеся в природе молекулы, которые можно найти во всех живых организмах

Белки — это большие, очень сложные и встречающиеся в природе молекулы, которые можно найти во всех живых организмах. Эти уникальные вещества, состоящие из аминокислот, соединенных между собой пептидными связями с образованием длинных цепей, могут обладать самыми разнообразными функциями и свойствами.

Конкретный порядок, в котором различные аминокислоты расположены для образования данного белка, в конечном счете определяет трехмерную структуру белка, его физико-химические свойства и молекулярную функцию. В то время как ученые изучали белки в течение десятилетий, разработка белков, которые вызывают специфические химические реакции, до сих пор была чрезвычайно сложной задачей.

Исследователи из Biomatter Designs, Вильнюсского университета в Литве и Технологического университета Чалмерса в Швеции недавно разработали ProteinGAN, генеративную состязательную сеть (GAN), которая может обрабатывать и «изучать» различные природные последовательности белков. Эта уникальная сеть, представленная в статье, опубликованной в Nature Machine Intelligence, впоследствии использует полученную информацию для генерации новых функциональных последовательностей белков.

Белки широко используются в нашей повседневной жизни и включены в бесчисленные продукты, от стиральных порошков до средств лечения рака и коронавируса. Они состоят из 20 аминокислот, которые расположены в различных последовательностях, и их порядок определяет функцию белка.

Создание функциональных белковых последовательностей — очень сложная задача, так как даже небольшое изменение в данной последовательности может сделать белок нефункциональным. Нефункциональные белки могут оказывать вредное и нежелательное воздействие, например, вызывать у людей или животных развитие рака или других заболеваний.

«Если кто-то хочет сделать белки, соответствующие потребностям человека, он должен правильно понять порядок аминокислот и данное астрономическое число возможностей в создании этих белков, что не является тривиальной задачей», — говорят ученые. «Вдохновленные последними достижениями в области ИИ, мы захотели испытать, готова ли современная технология ИИ производить самые сложные молекулы, известные человеку — белки.»

Модель ProteinGAN основана на известном подходе машинного обучения, известном как состязательное обучение. Состязательное обучение можно рассматривать как игру, в которую «играют» две или более искусственных нейронных сетей.

Первая из этих сетей, известная как «генератор», производит определенный тип данных (например, изображение, текст или, в случае ProteinGAN, последовательность белка). Вторая сеть, известная как «дискриминатор», пытается отличить искусственные данные (например, последовательность белков), созданные «генератором», от подлинных или реальных данных.

Впоследствии генератор использует обратную связь, обеспечиваемую дискриминатором (то есть характеристики, которые позволили ему отличить генерируемые данные от реальных), для генерации новых данных. Генератор никогда не обрабатывает и не анализирует реальные данные и данные, которые он производит. Поэтому его изучение зависит исключительно от результатов анализа, проводимого дискриминатором.

«Повторяя этот процесс итеративно, обе сети становятся лучше в том, что они делают, до тех пор, пока сгенерированные последовательности не могут быть отличены от реальных», — говорят исследователи. «Используя разработанный нами инструмент искусственного интеллекта, мы смогли генерировать функциональные белки, которые были активны, но не существуют в природе или еще не были обнаружены.»

В первоначальных испытаниях, проведенных исследователями, ProteinGAN генерировал новые и очень разнообразные белковые последовательности с физическими свойствами, которые напоминают природные белковые последовательности.

Используя малатдегидрогеназу (МДГ) в качестве матричного фермента, ученые показали, что многие последовательности, генерируемые ProteinGAN, растворимы и проявляют каталитическую активность МДГ, что означает, что они могут иметь интересное применение в медицине и научных исследованиях. В будущем ProteinGAN может быть использован для открытия новых последовательностей белков с различными свойствами, которые могут оказаться ценными для различных технологических и научных применений.


Expanding functional protein sequence spaces using generative adversarial networks. Nature Machine Intelligence(2021). DOI: 10.1038/s42256-021-00310-5.

Поделиться в соцсетях
Показать больше
Подписаться
Уведомление о
guest
0 Комментарий
Встроенные отзывы
Посмотреть все комментарии
Back to top button