Альтруисты данных: где взять качественные датасеты для ИИ-решений

26 Mar 2021

Прослушать

Уровень заполнения дневников самонаблюдения россиянами, которые прошли вакцинацию от COVID-19, оказался выше того уровня, который прогнозировал Минздрав. Это говорит о запросе среди соотечественников на предоставление данных о себе, считает заместитель министра здравоохранения России Павел Пугачев. Об этом он рассказал в ходе круглого стола «Качественные медицинские данные для ИИ-решений: где их взять?», который прошел 25 марта в рамках форума Big Data.

Лучшее — враг хорошего

Участники круглого стола начали дискуссию с обсуждения вопроса качества медицинской информации, которая уже накоплена в стране. По мнению chief medical data officer проекта «Радиология Москвы» Департамента здравоохранения столицы Николая Павлова, эти данные очень плохо структурированы.

«Когда медицинские данные сохраняются, никто не думает, что они в будущем будут как-то обработаны, — предположил Павлов. — Они хранятся лишь для исполнения требований законодательства. Отсюда вывод — то, что мы накапливаем сейчас в электронных медицинских картах, должно быть максимально структурировано с запасом, чтобы в будущем эти данные можно было фильтровать, отбирать, размечать и на их базе обучать. То, что мы имеем сейчас, крайне сложно и затратно перевести в хорошие, машинно-ориентированные датасеты».

Нельзя откидывать неструктурированные данные, которые мы имеем, потому что они уже здесь и сегодня могут приносить пользу, высказался заместитель министра здравоохранения России Павел Пугачев.

«Мы видим, что недостаточно проектов, которые бы работали с неструктурированными текстами, с результатами анализов», — констатировал замминистра.

Качественная галлюцинация

Говоря о структурировании данных, необходимо думать о врачах, полагает руководитель направления цифровой медицины «Инвитро» Борис Зингерман.

«Если мы попросим их вносить данные в структурированном, формализованном виде, это может оказаться слишком сложно и затратно по времени», — добавил спикер.

Директор по развитию проекта WebioMed, руководитель GR Ассоциации Национальная база медицинских знаний Александр Гусев поделился собственным опытом в этой области.

«В проекте по внедрению электронной медицинской карты у нас появился заказчик, который категорически не был готов работать с текстовым документом, — продолжил Гусев. — Совместно с группой врачей-экспертов мы разработали подробный, формализованный врачебный осмотр, который содержал почти 1000 полей. В итоге его заполнение в условиях стационара занимало от 30 до 40 минут».

В конечном счете от него врачи отказались. Несмотря на всю стандартизацию этого документа, ряд объектов осмотра все равно так и остался текстовым, например, «Жалобы» ввиду их многообразия.

«Но даже пока врачи работали с этой формой под давлением администрации, мы поймали их на том, что они меняли всего несколько полей, а все остальное в шаблоне даже не трогали, — констатировал Гусев. — На выходе это означало, что у нас была очень качественная, прекрасно машинно-обрабатываемая галлюцинация. Какой в ней смысл? При этом мы делали врачей рабами-операторами».

По словам эксперта, абсолютная формализация неприемлема в реальном мире. Она может использоваться в проспективных контролируемых клинических исследованиях. В клинической практике это может быть только сочетанная формализация, когда документ разбивается на несколько блоков очень крупно, и уже из него затем можно извлекаются признаки с помощью NLP.

В поисках золотой середины

Какие сложности преодолевают разработчики при получении доступа к медицинской информации?

По оценке директора по правовым инициативам фонда развития интернет-инициатив Александры Орехович, основная проблема — в нормативном регулировании. Одна из последних поправок к закону о так называемых безличных данных говорит о том, что для целей искусственного интеллекта определенным категориям организаций, которые будут соответствовать определенным требованиям, будет предоставляться доступ к этим данным. Но ни порядка, ни определения, что это за категории и требования, пока нет, подчеркнула Орехович.

«Действительно, нормативное регулирование сейчас является основным вопросом повестки дня; все остальное — вторично, — уверен Гусев. — Общественное мнение представлено двумя полярными точками зрения. Первое — никаких обезличенных данных никому не предоставлять, потому что может быть не дай бог что. Второе — давайте ради развития рынка полностью разрешим всем, кому не лень, включая операторов, и пусть сами, как хотят, обезличивают, распространяют».

Наверное, и то, и другое — крайности, которых лучше избегать. Правильный подход видится эксперту следующим образом: предоставить контролируемый, прозрачный, подлежащий надзору доступ к обезличенным по определенным, установленным государством правилам данным. По прогнозу Гусева, самая горячая дискуссия развернется, когда мы увидим проекты этих подзаконных актов, дающих ответ на вопросы: кто и как?

Доноры и альтруисты

«С Павлом Пугачевым мы познакомились 20 лет назад на проекте, связанном с донорством крови, — рассказал Зингерман. — Сегодня настало время поговорить о таком понятии, как донация данных. В настоящее время идут два процесса. С одной стороны, — все более и более глубокой защиты персональных данных. С другой, — полной открытости цифрового следа, и люди понимают, что их данными можно иногда легко поделиться. Сделать донацию данных легче, чем — донацию крови, но пользы от первой тоже может быть достаточно много».

То, что Минздрав сейчас предпринимает большие усилия для организации доступа пациентам к своим личным данным через ЕПГУ, является очень хорошим основанием для того, чтобы граждане, которые считают, что могут этими данными поделиться, могли это сделать, продолжил спикер. Для этого надо предусмотреть технологическую основу.

«Я, например, отношусь к таким гражданам, — признался Зингерман. — Я с удовольствием поделюсь своими данными для науки».

Важно создание единой инфраструктуры и законодательства как для частных, так и для государственных организаций, прокомментировал операционный директор Celsus AI Никита Николаев. Ведь зачастую важны данные о течении заболевания в динамике, а пациент может получать помощь как в государственном, так и в частном секторе здравоохранения.

Надо ли делать доступ к данным платным? Или, возможно, кому-то его следует предоставить на безвозмездной основе? Александра Орехович напомнила о том, что существует понятие «альтруизм данных». Он предполагает передачу, как правило, некоммерческой организации обезличенных данных от компаний, в том числе клиник, и доступ к ним может получить очень ограниченный круг субъектов для использования только в некоммерческих целях.

«Мы имеем опыт получения баз данных в Великобритании, США и Финляндии и нащупали три модели, — заявил Гусев. — Можно бесплатно получить наборы обезличенных медицинских данных — 5-10 тыс. записей, и почему-то на них самые плохие метрики машинного обучения. В Великобритании мы были вынуждены пройти жесткую этическую экспертизу, нам дали доступ к большому набору — несколько десятков тысяч записей, но запретили использовать их в коммерческих целях. В Финляндии все просто: сначала мы становимся резидентами IT-парка, открываем юрлицо, начинаем платить налоги, и только после этого нам дадут доступ. В мире все прагматично. То, что не имеет ценности, то бесплатно. А то, что ценность представляет, никто никому просто так не отдаст. Нам нужно думать в этом направлении».

Гусев не исключает возможности предоставления бесплатного доступа к данным научным организациям, НМИЦ, которые подчиняются Минздраву, но никакой свободной трансграничной передачи данных, по его убеждению, быть не должно.

Борис Зингерман привел пример получения доступа к данным 2,5 тыс. пациентов из Испании по лечению COVID-19 в стационаре, которые были получены бесплатно по письму российского НИИ. Объем базы был несколько ГБ. Это является примером успешного научного сотрудничества.

Пациенты не против

Необходима инфраструктура для обработки медицинских изображений, сказал Павел Пугачев, подводя итоги круглого стола: «У нас такие показатели стоят во всех региональных проектах. За счет стандартизации медицинских изображений есть большие прорывы по их анализу. Имея этот положительный опыт, сейчас мы обсуждаем возможности стандартизации других медицинских данных».

«Соглашусь, что чем больше и сложнее электронный документ или экранная форма, которую надо заполнить врачу, тем менее достоверными скорее всего будут данные, — резюмировал замминистра. — Важно подключать сюда данные, которые вводит не человек, — в том числе с умных устройств, а также сведения, которые заполняет сам пациент. По вакцинации от новой коронавирусной инфекции мы увидели, что у людей есть запрос на предоставление такой информации. Мы не ожидали, что уровень заполнения дневников самонаблюдения будет настолько высок, думали, он буде меньше».

Причем заполняют электронный дневник не только представители молодого возраста, заверил спикер. Это, по его мнению, говорит, что часто мы не дооцениваем пользователей, которые уже далеко продвинулись с точки зрения использования гаджетов и интернет-технологий.

«Привлечение самих пациентов к предоставлению информации о себе позволит разгрузить врачей и собрать дополнительные сведения», — сказал замминистра.

Текст подготовила Екатерина Погонцева