Биоинформатики СПбГУ разработали сборщик для расшифровки геномов коронавирусов
Новая разработка Центра алгоритмической биотехнологии СПбГУ, получившая название coronaSPAdes, позволяет собирать геномы РНК-вирусов
Новая разработка Центра алгоритмической биотехнологии СПбГУ, получившая название coronaSPAdes, позволяет собирать геномы РНК-вирусов, и в первую очередь коронавирусов. По предварительным данным, с ее помощью уже удалось восстановить последовательности геномов ранее неизвестных коронавирусов.
Модуль coronaSPAdes — это специальный режим сборщика SPAdes (Saint Petersburg Assembler) — флагманского продукта лаборатории «Центр алгоритмической биотехнологии» СПбГУ, известного во всем мире. С помощью SPAdes ученые из разных стран анализируют патогены, вызвавшие вспышку Ближневосточного респираторного синдрома (MERS) в Саудовской Аравии, Эболы в Конго, гонореи в Англии, менингита в Гане, лихорадки денге на Суматре и десятки других вспышек.
Сборщик SPAdes и различные режимы его работы позволяют производить расшифровку геномов живых организмов, в том числе вирусов. Дело в том, что биологи до сих пор не умеют читать геномы так же, как мы читаем книгу: от начала и до конца.
Вместо этого они «прочитывают» небольшие фрагменты, которые потом собирают в полный текст. Поэтому сборка генома мало чем отличается от сборки пазла из миллиона частей. Эта задача относится к одной из самых сложных алгоритмических проблем в биоинформатике, и, чтобы ее решить, необходимо использовать специальные инструменты — геномные сборщики.
«На создание модуля coronaSPAdes нас подвигли запросы научного сообщества, — рассказал сотрудник Центра алгоритмической биотехнологии СПбГУ Антон Коробейников, один из основных авторов нового продукта.
— Из разных лабораторий к нам поступали многочисленные вопросы о том, как лучше с помощью утилит семейства SPAdes собирать РНК-вирусы. Одними из таких центров являются Европейский институт биоинформатики (EMBL-EBI), с которым у нас есть совместный грант Российского фонда фундаментальных исследований, и сообщество ученых, работающих над поиском новых корона- и других вирусов в публичных данных в рамках научной коллаборации Serratus. Так как существующие модули сборщика SPAdes не дают ощутимого преимущества перед программами-конкурентами, была поставлена задача создать новый модуль, который учитывает уникальные особенности строения генома коронавирусов и данных секвенирования».
Решающая роль в этой разработке принадлежит сотруднику Центра алгоритмической биотехнологии СПбГУ Дмитрию Мелешко.
Также важно отметить, что coronaSPAdes основан на предыдущих разработках лаборатории и кодовой базе семейства сборщиков SPAdes (metaSPAdes, rnaSPAdes, metaviralSPAdes, biosyntheticSPAdes). Без этих наработок создание модуля было бы невозможным.
Первая версия coronaSPAdes была разработана за пару недель. Выполнить работу в столь сжатые сроки помогли тестовые данные, предоставленные научной коллаборацией Serratus.
Сегодня создатели сборщика заняты его дальнейшим совершенствованием, однако уже сейчас он позволяет восстанавливать геномы коронавирусов de novo, гораздо эффективнее и качественнее, чем альтернативные подходы. Например, из некоторых наборов данных были собраны полноразмерные геномы, по предварительным данным, ранее неизвестных коронавирусов.
Модуль coronaSPAdes учитывает особенности данных секвенирования РНК, а также реализует уникальные алгоритмические решения, нацеленные на улучшение восстановления последовательности генома коронавирусов.
Более того, подходы, заложенные в coronaSPAdes, могут быть использованы в дальнейшем для разработки новых сборщиков, использующих информацию о структуре иных типов геномов.
«Сборщик coronaSPAdes сразу стал активно применяться учеными, но нам сложно оценить границы использования, потому что мы не отслеживаем всех пользователей. CoronaSPAdes является программой с открытым исходным кодом (open source), которая доступна для скачивания и использования всем желающим. По нашим данным, помимо EMBL-EBI интерес к сборщику проявили такие крупные исследовательские сообщества, как Serratus, MetaSUB Consortium и NextFlow», — отметил Антон Коробейников.
Как рассказала заместитель директора Центра алгоритмической биотехнологии Института трансляционной биомедицины СПбГУ Алла Лапидус, за короткое время в лаборатории создано несколько новых программ, целью которых является быстрая и качественная обработка геномных данных, необходимых для анализа вирусов (и не только), вызывающих различные болезни, и в первую очередь коронавирусов.
«В 2020 году эпидемиологическая обстановка в мире не позволяет ученым и медикам расслабиться — не успели еще справиться с коронавирусом, как появились сообщения о, возможно, новом штамме свиного гриппа, получившем название G4 EA H1N1, — отметила Алла Лапидус. — Выяснить, действительно ли этот штамм новый или ранее известный сезонный штамм, в первую очередь поможет анализ его генома.
-А на днях появились сообщения о случаях бубонной чумы в Китае, вызываемой бактерией Yersinia pestis. В такой непростой обстановке возрастает не только потребность в аналитических методах, но и в грамотных специалистах. В этом году прошел первый в истории СПбГУ выпуск магистерской программы «Биоинформатика», и я желаю нашим выпускникам больших научных достижений и открытий».