AI-система поиска научной информации, относящейся к COVID-19
Научное сообщество во всем мире с беспрецедентной быстротой мобилизовалось на борьбу с пандемией COVID-19, и количество новых исследований поражает воображение. Ежедневно появляются сотни научных работ о COVID-19, как в традиционных журналах, так и в не рецензируемых изданиях (non-peer-reviewed preprints). Их уже гораздо больше, чем любой человек может успеть их хотя бы просмотреть, и постоянно появляется все больше и больше.
И это не только новые исследования. По оценкам, до начала эпидемии было опубликовано до 500 000 работ, имеющих отношение к COVID-19, включая работы, связанные со вспышками атипичной пневмонии (SARS) в 2002 году и MERS в 2012 году. Любая из них может содержать ключевую информацию, которая приведет к эффективному лечению, или поможет создать вакцину для COVID-19.
Традиционные методы поиска по исследовательской литературе сейчас просто больше не работают. Именно поэтому ученые из Министерства энергетики США и Lawrence Berkeley National Laboratory разработали поисковую систему COVIDScholar на основе искусственного интеллекта (artificial intelligence, AI) для поиска информации, относящейся к COVID-19. COVIDScholar включает в себя инструменты, которые способны найти неочевидные связи, такие как схожие лекарства или исследовательские методики, чтобы рекомендовать соответствующие исследования ученым. Искусственный интеллект не может заменить ученых, но он может помочь им получить новые знания из большего количества статей, чем они могли прочитать за всю жизнь.
Когда речь заходит об эффективном лечении COVID-19, время играет важную роль. Ученые тратят 23% своего времени на поиск и чтение статей. Каждая секунда, которую новые поисковые инструменты могут им сэкономить, - это больше времени, которое они могут использовать на то, чтобы работать в лаборатории и анализировать данные.
Искусственный интеллект может также улавливать скрытые научные знания из текста, создавая связи, которые люди могли бы пропустить. Система может помочь найти существующие лекарства, которые можно было бы перепрофилировать, генетические связи, которые могли бы помочь в разработке вакцины или эффективных схем лечения. Сейчас в COVIDScholar начинают внедрять новые алгоритмы, позволяющие использовать молекулярные структуры для поиска лекарств, похожих друг на друга, в том числе и неожиданно схожих.
Разработчики внедрили в систему модули сбора данных (web scrapers), которые собирают новые статьи по мере их публикации из самых разных источников, делая их доступными на сайте в течение 15 минут с момента их появления в сети. При этом алгоритм очищает данные, исправляя ошибки в форматировании и сравнивая одну и ту же статью по нескольким источникам, чтобы найти лучшую версию. Затем алгоритмы машинного обучения размечают материалы, помечая ее тематическими категориями и отмечая работу, важную для COVID-19.
На сегодняшний день система содержит набор из более чем 60 000 документов на тему COVID-19. Инструменты поиска, позволяют группировать исследования по категориям, предлагают сопутствующие исследования и предоставляют пользователям возможность находить работы, которые связывают различные понятия. Например, работы, которые связывают конкретный препарат с болезнями, для лечения которых он использовался в прошлом. В настоящее время в систему добавляются AI-алгоритмы, которые позволяют исследователям подключать результаты поиска к количественным моделям для изучения таких тем, как взаимодействие белков.