Искусственный интеллект диагностирует болезни так же хорошо, как и люди
Первый систематический обзор доступной информации об использовании технологий искусственного интеллекта (artificial intelligence, AI) в здравоохранении и ее мета-анализ показывает, что такие системы так же хорошо диагностирует заболевания, основываясь на анализе медицинских изображений, как и врачи. Однако для подтверждения такого вывода необходимы более качественные исследования.
Это первый систематический обзор, сравнивающий показатели AI с показателями медицинских профессионалов по диагностике всех заболеваний. Исследование было проведено большой группой английских ученых под руководством профессора Аластера Деннистона из университетской больницы Бирмигема, входящей в структуру NHS Foundation Trust. Они исследовали несколько медицинских баз данных для всех исследований, опубликованных в период с 1 января 2012 года по 6 июня 2019 года. Результаты этого анализа были опубликованы в журнале The Lancet Digital Health.
Ученые искали исследования, в которых сравнивалась бы диагностическая эффективность алгоритмов глубокого обучения с эффективностью работы медицинских работников, когда они ставили диагноз, основанный на медицинских изображениях. При этом они изучали качество отчетов в указанных исследованиях, их клиническую ценность и структуру исследований.
Кроме того, когда речь зашла об оценке эффективности диагностики AI по сравнению с работой медицинских работников, исследователи рассматривали два параметра: специфичность и чувствительность.
"Чувствительность" определяет вероятность того, что диагностический инструмент даст положительный результат людям, страдающим этим заболеванием. Специфичность относится к точности диагностического теста, который дополняет измерение чувствительности.
В итоге было отобрано только 14 исследований, качество которых было достаточно высоким, чтобы включить их в анализ. Профессор Деннистон объясняет:
Мы рассмотрели более 20 500 статей, но менее 1% из них были достаточно надежными в своей разработке и отчетности, чтобы независимые рецензенты с большим доверием отнеслись к их заявлениям. Более того, только 25 исследований провели внешнюю валидацию AI-моделей (с использованием медицинских изображений из другой популяции), и только 14 исследований сравнили результаты AI и медицинских специалистов, использующих один и тот же тестовый образец.
Мы обнаружили, что технология глубокого обучения действительно может выявить заболевания, начиная от рака и заканчивая глазными болезнями, с такой же точностью, как и профессиональные медики. Но важно отметить, что AI существенно не превосходит человеческий диагноз.
В частности, анализ показал, что AI может правильно диагностировать заболевания в 87% случаев, в то время как обнаружение их медицинскими работниками дало 86% точности. Специфичность при диагностике с помощью алгоритмов глубокого обучения составляла 93% по сравнению с 91% для людей.
Английские ученые также обращают внимание на ряд ограничений, которые они обнаружили в исследованиях, изучающих эффективность диагностики с помощью AI.
Во-первых, большинство исследований исследуют точность диагностики AI и медицинских работников в изолированных условиях, которые не имитируют реальную клиническую практику - например, лишая врачей дополнительной клинической информации, которая им обычно необходима для постановки диагноза.
Во-вторых, большинство исследований сравнивали только наборы данных, в то время как высококачественные исследования в области диагностических характеристик требовали бы проведения таких сравнений с участием реальных людей.
Кроме того, все исследования страдали от плохой отчетности, говорят авторы, поскольку в анализе не учитывалась информация, отсутствовавшая в этих наборах данных.
Дополнительные ограничения включают несогласованность терминологии, нечеткое определение порога для анализа чувствительности и специфичности, а также отсутствие валидации вне выборки.