Система на базе искусственного интеллекта быстро предсказывает, как соединятся два белка

10 Feb 2022
27
Прослушать

Антитела, небольшие белки, вырабатываемые иммунной системой, могут присоединяться к определенным частям вируса, чтобы нейтрализовать его. Поскольку ученые продолжают борьбу с вирусом SARS-CoV-2, вызывающим COVID-19, одним из возможных видов оружия является синтетическое антитело, которое связывается с белками-шипами вируса и не дает ему проникнуть в человеческую клетку.

Чтобы разработать успешное синтетическое антитело, исследователи должны понять, как именно будет происходить это связывание. Белки, которые имеют сложную трехмерную структуру, содержащую множество складок, могут соединяться друг с другом в миллионах комбинаций, поэтому поиск нужного белкового комплекса среди почти бесчисленных кандидатов занимает очень много времени.

Чтобы упростить этот процесс, американские исследователи из Массачусетского технологического института создали модель машинного обучения, которая может напрямую предсказать комплекс, который образуется, когда два белка связываются вместе. Их метод в 80-500 раз быстрее, чем современные программные методы, и часто предсказывает белковые структуры, которые ближе к реальным структурам, наблюдаемым экспериментально.

Эта методика может помочь ученым лучше понять некоторые биологические процессы, в которых задействованы белковые взаимодействия, например репликацию и восстановление ДНК; она также может ускорить процесс разработки новых лекарств.

Разработанная исследователями модель, названная Equidock, ориентирована на стыковку жестких тел, которая происходит, когда два белка соединяются путем вращения или перемещения в трехмерном пространстве, но их формы не сжимаются и не изгибаются.

Модель берет трехмерные структуры двух белков и преобразует их в трехмерные графы, которые могут быть обработаны нейронной сетью. Белки формируются из цепочек аминокислот, и каждая из этих аминокислот представлена узлом в графе.

Исследователи включили в модель геометрические знания, поэтому она понимает, как могут изменяться объекты при их повороте или перемещении в трехмерном пространстве. В модель также встроены математические знания, благодаря которым белки всегда прикрепляются одинаково, независимо от того, где они находятся в трехмерном пространстве. Именно так белки стыкуются в человеческом теле.

Используя эту информацию, система машинного обучения определяет атомы двух белков, которые с наибольшей вероятностью будут взаимодействовать и образовывать химические реакции, известные как точки связывания. Затем она использует эти точки, чтобы соединить два белка в комплекс.

Как объясняют ученые,

Если мы сможем понять по белкам, какие отдельные части могут быть точками связывания, то это даст нам всю необходимую информацию, чтобы поместить два белка вместе. Если мы сможем найти эти два набора точек, тогда нам останется только выяснить, как повернуть и перевести белки, чтобы один набор совпал с другим.

Одной из самых больших проблем при построении этой модели было преодоление недостатка обучающих данных. Поскольку существует так мало экспериментальных 3D-данных по белкам, было особенно важно включить в Equidock геометрические знания. Без этих геометрических ограничений модель могла бы уловить ложные корреляции в наборе данных.

Equidock способен предсказать конечный белковый комплекс всего за одну-пять секунд. Все базовые методы требуют гораздо больше времени - от 10 минут до часа и более.

По показателям качества, которые рассчитывают, насколько точно предсказанный белковый комплекс соответствует реальному аналогу, Equidock часто был сравним с базовыми методами, но иногда и превосходил их.

Сейчас ученые намерены включить в Equidock специфические атомные взаимодействия, чтобы он мог делать более точные прогнозы. Например, иногда атомы в белках соединяются посредством гидрофобных взаимодействий, в которых участвуют молекулы воды. Кроме того, они хотят усовершенствовать Equidock, чтобы он мог делать прогнозы для гибкой стыковки белков. Самым большим препятствием на этом пути является отсутствие данных для обучения, поэтому разработчики работают над созданием синтетических данных, которые можно использовать для улучшения модели.