MetaviralSPAdes: биоинформатики создали новый сборщик для расшифровки геномов вирусов
Когда человечество сталкивается с новым вирусом, биологи первым делом принимаются за расшифровку его генома — это необходимое условие для дальнейшей диагностики заболевания и разработки вакцины
Биоинформатики Центра алгоритмической биотехнологии СПбГУ и Калифорнийского университета в Сан-Диего разработали ассемблер metaviralSPAdes — новый сборщик, позволяющий найти и собрать геном вируса среди множества других последовательностей. Разработка поможет быстрее и удобнее расшифровывать геномы патогенов, а значит, даст возможность быстрее приступить к разработкам тест-систем и вакцин от опасных инфекций. Научная статья опубликована в журнале Bioinformatics.
Когда человечество сталкивается с новым вирусом, биологи первым делом принимаются за расшифровку его генома — это необходимое условие для дальнейшей диагностики заболевания и разработки вакцины. Однако, если секвенирование нужно провести во время вспышки нового патогена, возникает проблема.
Например, в слюне пациента с COVID-19, которая использовалась для самой первой расшифровки коронавируса SARS-CoV-2, содержались геномы многих других, в большинстве случаев безвредных вирусов. Не говоря уже о сотнях бактерий, которые живут во рту человека и затрудняют поиск вирусных последовательностей.
Этот пример показывает, как важно уметь решать гораздо более сложную вычислительную задачу, чем расшифровка одного генома, — собирать метагеномы, наборы из сотен различных геномов микроорганизмов, живущих в одной среде. Сложность заключается в том, что в результате такой работы можно получить тысячи последовательностей, среди которых будут фрагменты генетического кода как вирусов, так и бактерий, и какие именно данные относятся к нужному патогену, понять совсем непросто.
К тому же перед учеными неизбежно встанет другая задача — секвенирование метавирома — суть которой заключается в том, чтобы идентифицировать именно вирусные последовательности, скрытые среди гораздо более длинных бактериальных фрагментов. Затем биоинформатикам предстоит буквально по кусочкам собрать полный геном вируса, ставшего виновником вспышки заболевания.
Еще недавно у исследователей не было специального инструмента, который позволил бы собирать вирусные метагеномы. Однако группа российских и американских ученых из Санкт-Петербургского государственного университета и Калифорнийского университета в Сан-Диего разработала ассемблер metaviralSPAdes, который превращает анализ результатов секвенирования метавирома в простую задачу.
Биологи до сих пор не могут прочитать весь геном так же, как мы читаем книгу: от начала и до конца. Вместо этого они прочитывают небольшие фрагменты, поэтому сборка генома мало чем отличается от сборки пазла из миллиона фрагментов. Часто эту задачу рассматривают как одну из самых сложных алгоритмических проблем в биоинформатике.
Решить ее все-таки можно: так, самый широко используемый геномный сборщик SPAdes (Saint Petersburg Assembler), также созданный российско-американской командой ученых, был применен на сегодня почти в 9000 исследований. С его помощью ученые анализировали патогены, вызвавшие вспышку Ближневосточного респираторного синдрома (MERS) в Саудовской Аравии, Эболы в Конго, гонореи в Англии, менингита в Гане, лихорадки денге на Суматре и десятки других вспышек, которые произошли за последние восемь лет с момента создания SPAdes.
Не стоит забывать, что сборка метагенома из 1000 геномов намного сложнее, чем сборка последовательности одного генома. В этом случае приходится разбираться с 1000 отдельных пазлов вместо одного: требуется собрать «картинку», фрагменты которой перемешались с миллиардами кусочков от других пазлов.
Для решения этой проблемы три года назад российско-американская команда ученых, создавших SPAdes, разработала ассемблер metaSPAdes, который, в свою очередь, стал ведущим метагеномным сборщиком. С его помощью извлекать вирусные последовательности из огромного количества данных стало легче, однако сборщик нового поколения metaviralSPAdes способен не только находить фрагменты вирусных геномов, но еще и собирать из них готовый «пазл» — геном патогена.
Пандемия COVID-19 стала тревожным звонком для биологов, изучающих передачу вирусов от животных к человеку, и напомнила, насколько важно исследовать различных хозяев вирусов, например летучих мышей, обладателей беспрецедентной иммунной системы, которая позволяет им сосуществовать со множеством патогенов, способных убивать людей. Нам необходимо знать, чем болеют летучие мыши, до, а не после пандемических ударов.
Безусловно, проведение переписи вирусных геномов самых разных животных является сложной вычислительной проблемой. Однако, имея под рукой metaviralSPAdes, биологи теперь могут куда проще реконструировать вирусные геномы летучих мышей или любых других потенциальных источников будущих пандемий.
Для информации
Лаборатория «Центр алгоритмической биотехнологии» была создана в СПбГУ в конце 2014 года. Ее возглавил профессор Калифорнийского университета кандидат физико-математических наук Павел Певзнер.
Флагманский продукт лаборатории — алгоритм сборки генома SPAdes (Saint Petersburg Assembler) — используется тысячами специалистов в области геномики по всему миру.