Нейронная сеть прогнозирует наступление депрессии по разговору

17 Dec 2018
694
Прослушать

Согласно данным Всемирной организации здравоохранения за март 2018 года, депрессия является одним из наиболее распространенных психических расстройств в мире, от которого страдают более 300 млн человек и ежегодно происходит около 800 000 самоубийств. Диагностика депрессии является очень сложной задачей. По данным американской Mayo Clinic, симптомы депрессии варьируются, и врачи для диагностирования этого заболевания используют физическое обследование, лабораторные тесты, просят пациентов заполнить специализированный опросник и т.п. Все это сложно и неточно.

Исследователи из Массачусетского технологического института (МТИ) разработали программную модель на основе нейронной сети, которая способна прогнозировать депрессию, основываясь на идентификации определенных шаблонов речи из аудиозаписи и текстовой транскрипции разговора с пациентом.

Используя набор данных из 142 записанных интервью с пациентами, команда стремилась смоделировать последовательности для выявления депрессии. При этом использовались методы бесконтекстного моделирования, взвешенного моделирования и последовательного моделирования.

Сначала группа стремилась оценить точность прогнозирования аудио- и текстовых характеристик "независимо от типа задаваемого вопроса и времени, которое он был задан в ходе интервью", другими словами, "без контекста" моделирования. При этом разработчики добавили 279 аудио и 100 текстовых элементов в логистическую регрессионную модель с L1-регуляризацией.

Во втором эксперименте специалисты МТИ стремилась понять прогнозные характеристики "в зависимости от типа задаваемого вопроса и независимо от того, когда он был задан во время интервью". Для этого они создали взвешенную модель, аналогичную бесконтекстной, с ключевым дифференцирующим фактором - присвоили модели веса, основанные на "прогностической силе вопроса, которая была определена с помощью тренировочного набора данных".

В третьем эксперименте команда сосредоточилась на "моделировании временных изменений интервью" и использовала для этого двунаправленную нейронную сеть Long Short-Term Memory (LSTM).

Интересно, что исследователи обнаружили, что модели требуется в четыре раза больше данных при использовании аудио, чем текста при прогнозировании депрессии. Модель требовала в среднем 30 последовательностей для аудио-анализа по сравнению только с семью текстовыми последовательностями вопросов и ответов. Ученые отмечают, что разработанный ими метод является достаточно точным для прогнозирования депрессии, и мультимодальная модель использования как текста, так и звука показала наилучшие результаты.

Данное исследование МТИ, по мнению разработчиков решения, представляет собой инновационный шаг на пути к созданию нового инструмента, который поможет врачам и психиатрам справиться со сложностями диагностики депрессии в будущем.