Вирусология

Биоинформатики СПбГУ разработали сборщик для расшифровки геномов коронавирусов

Новая разработка Центра алгоритмической биотехнологии СПбГУ, получившая название coronaSPAdes, позволяет собирать геномы РНК-вирусов

Новая разработка Центра алгоритмической биотехнологии СПбГУ, получившая название coronaSPAdes, позволяет собирать геномы РНК-вирусов, и в первую очередь коронавирусов. По предварительным данным, с ее помощью уже удалось восстановить последовательности геномов ранее неизвестных коронавирусов.

Модуль coronaSPAdes — это специальный режим сборщика SPAdes (Saint Petersburg Assembler) — флагманского продукта лаборатории «Центр алгоритмической биотехнологии» СПбГУ, известного во всем мире. С помощью SPAdes ученые из разных стран анализируют патогены, вызвавшие вспышку Ближневосточного респираторного синдрома (MERS) в Саудовской Аравии, Эболы в Конго, гонореи в Англии, менингита в Гане, лихорадки денге на Суматре и десятки других вспышек.

Сборщик SPAdes и различные режимы его работы позволяют производить расшифровку геномов живых организмов, в том числе вирусов. Дело в том, что биологи до сих пор не умеют читать геномы так же, как мы читаем книгу: от начала и до конца.

Вместо этого они «прочитывают» небольшие фрагменты, которые потом собирают в полный текст. Поэтому сборка генома мало чем отличается от сборки пазла из миллиона частей. Эта задача относится к одной из самых сложных алгоритмических проблем в биоинформатике, и, чтобы ее решить, необходимо использовать специальные инструменты — геномные сборщики.

«На создание модуля coronaSPAdes нас подвигли запросы научного сообщества, — рассказал сотрудник Центра алгоритмической биотехнологии СПбГУ Антон Коробейников, один из основных авторов нового продукта.

— Из разных лабораторий к нам поступали многочисленные вопросы о том, как лучше с помощью утилит семейства SPAdes собирать РНК-вирусы. Одними из таких центров являются Европейский институт биоинформатики (EMBL-EBI), с которым у нас есть совместный грант Российского фонда фундаментальных исследований, и сообщество ученых, работающих над поиском новых корона- и других вирусов в публичных данных в рамках научной коллаборации Serratus. Так как существующие модули сборщика SPAdes не дают ощутимого преимущества перед программами-конкурентами, была поставлена задача создать новый модуль, который учитывает уникальные особенности строения генома коронавирусов и данных секвенирования».

Решающая роль в этой разработке принадлежит сотруднику Центра алгоритмической биотехнологии СПбГУ Дмитрию Мелешко.

Также важно отметить, что coronaSPAdes основан на предыдущих разработках лаборатории и кодовой базе семейства сборщиков SPAdes (metaSPAdes, rnaSPAdes, metaviralSPAdes, biosyntheticSPAdes). Без этих наработок создание модуля было бы невозможным.

Первая версия coronaSPAdes была разработана за пару недель. Выполнить работу в столь сжатые сроки помогли тестовые данные, предоставленные научной коллаборацией Serratus.

Сегодня создатели сборщика заняты его дальнейшим совершенствованием, однако уже сейчас он позволяет восстанавливать геномы коронавирусов de novo, гораздо эффективнее и качественнее, чем альтернативные подходы. Например, из некоторых наборов данных были собраны полноразмерные геномы, по предварительным данным, ранее неизвестных коронавирусов.

Модуль coronaSPAdes учитывает особенности данных секвенирования РНК, а также реализует уникальные алгоритмические решения, нацеленные на улучшение восстановления последовательности генома коронавирусов.

Более того, подходы, заложенные в coronaSPAdes, могут быть использованы в дальнейшем для разработки новых сборщиков, использующих информацию о структуре иных типов геномов.

«Сборщик coronaSPAdes сразу стал активно применяться учеными, но нам сложно оценить границы использования, потому что мы не отслеживаем всех пользователей. CoronaSPAdes является программой с открытым исходным кодом (open source), которая доступна для скачивания и использования всем желающим. По нашим данным, помимо EMBL-EBI интерес к сборщику проявили такие крупные исследовательские сообщества, как Serratus, MetaSUB Consortium и NextFlow», — отметил Антон Коробейников.

Как рассказала заместитель директора Центра алгоритмической биотехнологии Института трансляционной биомедицины СПбГУ Алла Лапидус, за короткое время в лаборатории создано несколько новых программ, целью которых является быстрая и качественная обработка геномных данных, необходимых для анализа вирусов (и не только), вызывающих различные болезни, и в первую очередь коронавирусов.

«В 2020 году эпидемиологическая обстановка в мире не позволяет ученым и медикам расслабиться — не успели еще справиться с коронавирусом, как появились сообщения о, возможно, новом штамме свиного гриппа, получившем название G4 EA H1N1, — отметила Алла Лапидус. — Выяснить, действительно ли этот штамм новый или ранее известный сезонный штамм, в первую очередь поможет анализ его генома.

-А на днях появились сообщения о случаях бубонной чумы в Китае, вызываемой бактерией Yersinia pestis. В такой непростой обстановке возрастает не только потребность в аналитических методах, но и в грамотных специалистах. В этом году прошел первый в истории СПбГУ выпуск магистерской программы «Биоинформатика», и я желаю нашим выпускникам больших научных достижений и открытий».

Показать больше
Back to top button