BaseFold: Прорыв в предсказании трехмерной структуры белков

BaseFold: Прорыв в предсказании трехмерной структуры белков

21 Mar 2024
225

Компания Basecamp Research объявила о запуске BaseFold, новой модели глубокого обучения, которая предсказывает 3D-структуры больших и сложных белков более точно, чем другие инструменты на основе искусственного интеллекта (ИИ), включая золотой стандарт AlphaFold2 с открытым исходным кодом. Эти данные были недавно опубликованы в журнале bioRxiv.

BaseFold был создан путем дополнения модели AlphaFold2, которая предсказывает 3D-структуру белка на основе его аминокислотной последовательности, моделью BaseGraph. BaseGraph — это специально созданный Basecamp Research основополагающий набор данных для биологического ИИ, собранный благодаря партнерству с более чем 25 странами с богатым биоразнообразием.

С момента своего основания в 2020 году компания Basecamp сотрудничает с учеными по всему миру, собирая высококачественную геномную информацию от десятков миллионов микробов, растений и животных со всего мира. Эти ученые, в свою очередь, получают роялти от доходов, получаемых Basecamp за эти данные. Именно этот набор данных, более обширный и качественный, чем общедоступные базы данных, на которых обучается AlphaFold2, Basecamp ставит в заслугу эффективности своей модели.

Опубликованные данные о повышении точности являются лишь отправной точкой, поскольку BaseFold постоянно совершенствуется по мере того, как Basecamp Research расширяет свою глобальную сеть партнерств в области биоразнообразия. Кроме того, Basecamp Research будет работать с NVIDIA над оптимизацией и производством BaseFold для NVIDIA BioNeMo, генеративной платформы ИИ для поиска лекарств.

Визуальное сравнение разницы в эффективности структурных предсказаний AlphaFold2 (оранжевый) и BaseFold (голубой) в конкурсах CASP15 и CAMEO

Визуальное сравнение разницы в эффективности структурных предсказаний AlphaFold2 (оранжевый) и BaseFold (голубой) в конкурсах CASP15 и CAMEO

Эффективность существующих ИИ-моделей, предсказывающих структуру белков, сильно зависит от их обучающих данных. Все они обучаются на публичных базах данных белков, которые, по общему мнению, не подходят для эры ИИ в биотехнологиях. Эти публичные обучающие базы данных малы, ненадежны и в значительной степени ориентированы на белки из лабораторных модельных организмов. Информация о последовательностях, содержащиеся в этих публичных базах данных, по оценкам, представляют менее 0,000001 % жизни на Земле. Эти ограничения данных означают, что существующие инструменты ИИ хорошо работают для предсказания структур небольших, более простых белков, которые хорошо представлены в публичных базах данных, но часто не справляются с этой задачей, создавая серьезные проблемы для тех, кто использует ИИ для разработки новых сложных лекарств.

AlphaFold2 в значительной степени опирается на общедоступную базу данных MGnify, известную своими проблемами с неполными последовательностями, что может повлиять на качество структур, предсказанных для больших белков. BaseFold от Basecamp Research решает следующую большую вычислительную задачу — достижение точности на уровне кристаллографии для больших и сложных белков, особенно тех, которые недостаточно представлены в существующих базах данных белковых последовательностей.

Для этого BaseFold извлекает на порядки более значимую эволюционную информацию из более чем 6 миллиардов связей в BaseGraph. Обучение алгоритмов на BaseGraph с обширным геномным контекстом и всеобъемлющими метаданными позволило значительно повысить производительность широкого спектра биологических моделей ИИ, включая AlphaFold2.