Глубокое обучение для идентификации поражений COVID-19 на компьютерных томограммах легких
Эффективная методология для проведения экспериментов, трансферного обучения и непрерывной организации моделей ИИ
Пандемия COVID-19 наносит беспрецедентный удар по здоровью людей. Массовые госпитализации и большое количество пациентов в реанимациях заставляют работать медицинские учреждения и персонал на пределе возможностей. К апрелю 2020 года был принят единый подход, согласно которому, хотя при первоначальной диагностике COVID-19 это обычно не рекомендуется, проведение томографии грудной клетки проводится пациентам с ухудшающимися респираторными симптомами. COVID-пневмония, которая выявляется с помощью рентгена грудной клетки или компьютерной томографии (КТ), может предупредить необходимость более сложного стационарного лечения.
Однако большое количество снимков КТ может потребовать тщательного анализа и сравнения с более ранними снимками того же пациента. В больницах в разгар эпидемии может проводиться большое количество КТ легких в день, что потенциально влияет на уровень обслуживания, который могут обеспечить радиологические бригады.
Искусственный интеллект (ИИ) может служить ценным диагностическим подспорьем, расширяя возможности специалистов, позволяя им максимально эффективно использовать имеющиеся ресурсы. Благодаря предварительному отбору компьютерных томограмм пациентов с COVID-19 точная ИИ-модель может быстро выявить серьезные случаи. При применении такого подхода в диагностике медицинские работники могут выявить пациентов с повышенным риском тяжелых осложнений на более ранней стадии, чтобы обеспечить необходимое лечение и должный уход.
Современные модели глубокого обучения, основанные на сверхточных нейронных сетях и обученные на последних данных о пациентах, могут идентифицировать поражения легких COVID с высоким уровнем точности. Однако для создания и поддержания оптимизированной модели ИИ необходима ее настройка, тестирование и постоянное обучение. Очень важно тщательно следить за тем, чтобы данные пациента были достоверны и конфиденциальны.
Компании NetApp и SFL Scientific разработали технологию высокопроизводительной сегментации легких при COVID-19, в которой используется современная модель и трансферное обучение. Методология позволяет получить точную, обученную модель за короткое время и обеспечивает ее оптимизацию. Работающая на быстрой и эффективной инфраструктуре хранения данных NetApp, модель требует в среднем всего 6 секунд для идентификации поражений COVID на каждой томограмме пациента, состоящей из сотен изображений. Такая скорость не уступает другим передовым моделям и значительно превосходит обычный процесс анализа КТ грудной клетки специалистом.
Оперативное создание прототипа модели ИИ для КТ легких при подозрении на COVID-19
Для создания высокоэффективной модели выявления и количественной оценки поражений COVID-19 в короткие сроки использовался подход трансферного обучения. Это процесс точной настройки ранее обученной нейронной сети для аналогичного или нового сценария использования. NetApp и SFL начали с предварительно обученной модели глубокого обучения и настроили ее для решения задач, улучшив производительность.
Набор решений NVIDIA Clara для здравоохранения включает в себя модель сегментации КТ-поражений легких COVID-19, разработанную совместно с Национальным институтом здравоохранения США (NIH). Модель Clara была обучена на наборе данных 913 независимых субъектов со всего мира, аннотированных экспертами. Модель разработана для широкого применения. Clara идентифицирует поражения легких с высочайшей точностью. Данный алгоритм может быть усовершенствован за счет обучения с использованием дополнительных данных о пациентах, включая сведения о географии или демографических характеристиках пациента. Клиническая картина поражений легких при COVID-19 может варьироваться от региона к региону или от одной группы населения к другой.
Точная настройка с помощью трансферного обучения
Предварительно подготовленная модель NVIDIA была точно настроена путем обучения на дополнительных данных о COVID-19. В качестве доказательства был использован набор данных COVID-19 Lung CT Lesion Segmentation Challenge-2020, содержащий 199 аннотированных сканов. Первый эксперимент по трансферному обучению позволил ощутимо улучшить производительность разработанной модели.
Как правило, специалисты по анализу данных экспериментируют с различными конфигурациями моделей и методами преобразования информации. Для обеспечения максимальной производительности моделей проводят несколько экспериментов по настройке: вносятся коррективы во время каждой последующей итерации и выбирается наиболее эффективная модель. После выбора такой модели ее обычно переобучают через определенные промежутки времени, используя самые актуальные данные. Такое обновление помогает минимизировать ошибки, продолжать повышать точность, уменьшать погрешность и, в конечном счете, помогать спасать жизни. Можно бесконечное количество раз продолжать экспериментировать, добиваясь все более глубокой оптимизации.
Во время экспериментов и переобучения важно обеспечить эффективное управление данными и простоту их отслеживания. Рабочие процессы обучения ИИ часто бывают сложными. Ученым и инженерам по обработке данных может потребоваться получать информацию из нескольких источников, которые не всегда совместимы друг с другом. Для решения таких проблем ученым нужны правильные инструменты. Они нуждаются в унификации данных, поступающих из различных источников, сред, платформ и протоколов.
Несмотря на наличие других инструментов для проведения итеративных экспериментов, обучения моделей и развертывания, большинство из них не упрощают управление данными. NetApp AI Control Plane объединяет инструменты для операций машинного обучения (MLOps) с другими технологиями NetApp, чтобы максимально упростить управление данными ИИ и облегчить проведение экспериментов. NetApp Data Science Toolkit позволяет легче управлять большими объемами данных, необходимым для глубокого обучения. Используемые вместе или по отдельности, они могут значительно ускорить реализацию проектов с использованием технологий искусственного интеллекта. Используя такие инструменты, можно быстро создать и продублировать тома, необходимые для обучения, провести эксперименты, оценить результаты и быстро провести проверку. Все задачи полностью отслеживаются, что обеспечивает их надежность, соответствие требованиям и возможность повторения.
Оптимизированная инфраструктура для искусственного интеллекта
Для проведения экспериментов и обучения используются надежные конвейеры данных и возможности параллельной обработки с помощью NetApp ONTAP® AI. ONTAP® AI объединяет в единую систему аналитические, обучающие и выводящие мощности центра обработки данных. От предварительной обработки до подачи данных в нейронные сети и обучения моделей ONTAP® AI устраняет препятствия в производительности и ускоряет выполнение рабочих нагрузок ИИ. Специалисты по анализу данных и инженеры по обработке информации могут выполнять больший объем работы за меньшее время. В здравоохранении эти преимущества могут привести к улучшению результатов лечения пациентов.
Возможные варианты применения в клинической практике
Модель можно развернуть на локальных серверах с помощью NVIDIA Clara Deploy SDK. Кроме того, с помощью Clara AGX можно развернуть модель непосредственно на встраиваемых устройствах. Такой подход к сегментации COVID-19 может быть расширен для решения других исследовательских и клинических задач, включая следующие случаи использования:
- Автоматический мониторинг компьютерной томографии. Все КТ грудной клетки, которые проходят через больничную систему, могут автоматически и регулярно проверяться в рамках рабочего процесса радиологии. Такой мониторинг способен выявить бессимптомных пациентов.
- Мониторинг лечения клинических исследований. Автоматизируя сравнение снимков по времени, модель может помочь исследователям оценить эффективность препарата или лечения.
- Прогнозирование исхода. Дополнительные модели могут помочь предсказать развитие болезни у пациентов и оптимизировать лечение.
Больше возможностей для искусственного интеллекта
Методология, использованная для быстрого создания модели сегментации легких при COVID-19, может быть использована для решения практически любой задачи сегментации изображений. Имея соответствующие данные, можно создать модели сегментации ИИ для любой системы органов. Модели могут применять методы визуализации, начиная от простых двухмерных рентгеновских снимков и заканчивая трехмерными КТ и МРТ или УЗИ. Аналогичные методы также могут быть применены к компьютерной патоморфологии.