Нейронная сеть прогнозирует наступление депрессии по разговору

Нейронная сеть прогнозирует наступление депрессии по разговору

17 Dec 2018
693
Прослушать

Согласно данным Всемирной организации здравоохранения за март 2018 года, депрессия является одним из наиболее распространенных психических расстройств в мире, от которого страдают более 300 млн человек и ежегодно происходит около 800 000 самоубийств. Диагностика депрессии является очень сложной задачей. По данным американской Mayo Clinic, симптомы депрессии варьируются, и врачи для диагностирования этого заболевания используют физическое обследование, лабораторные тесты, просят пациентов заполнить специализированный опросник и т.п. Все это сложно и неточно.

Исследователи из Массачусетского технологического института (МТИ) разработали программную модель на основе нейронной сети, которая способна прогнозировать депрессию, основываясь на идентификации определенных шаблонов речи из аудиозаписи и текстовой транскрипции разговора с пациентом.

Используя набор данных из 142 записанных интервью с пациентами, команда стремилась смоделировать последовательности для выявления депрессии. При этом использовались методы бесконтекстного моделирования, взвешенного моделирования и последовательного моделирования.

Сначала группа стремилась оценить точность прогнозирования аудио- и текстовых характеристик "независимо от типа задаваемого вопроса и времени, которое он был задан в ходе интервью", другими словами, "без контекста" моделирования. При этом разработчики добавили 279 аудио и 100 текстовых элементов в логистическую регрессионную модель с L1-регуляризацией.

Во втором эксперименте специалисты МТИ стремилась понять прогнозные характеристики "в зависимости от типа задаваемого вопроса и независимо от того, когда он был задан во время интервью". Для этого они создали взвешенную модель, аналогичную бесконтекстной, с ключевым дифференцирующим фактором - присвоили модели веса, основанные на "прогностической силе вопроса, которая была определена с помощью тренировочного набора данных".

В третьем эксперименте команда сосредоточилась на "моделировании временных изменений интервью" и использовала для этого двунаправленную нейронную сеть Long Short-Term Memory (LSTM).

Интересно, что исследователи обнаружили, что модели требуется в четыре раза больше данных при использовании аудио, чем текста при прогнозировании депрессии. Модель требовала в среднем 30 последовательностей для аудио-анализа по сравнению только с семью текстовыми последовательностями вопросов и ответов. Ученые отмечают, что разработанный ими метод является достаточно точным для прогнозирования депрессии, и мультимодальная модель использования как текста, так и звука показала наилучшие результаты.

Данное исследование МТИ, по мнению разработчиков решения, представляет собой инновационный шаг на пути к созданию нового инструмента, который поможет врачам и психиатрам справиться со сложностями диагностики депрессии в будущем.