Офлайновая система распознает голос с точностью в 97%
Американские ученые из университета Ватерлоо и компании DarwinAI заявили, что смогли создать нейронную сеть для распознавания речи, которая не только работает с очень высокой точностью, но вполне надежно может работать на самых простых смартфонах. Информация об этой разработке была опубликована в онлайн-журнале Arxiv.org.
При разработке новой стратегии создания нейронной сети ученые использовали работу специалистов Amazon, отвечающих за создание Alexa и ранее в этом году разработавших офлайновые алгоритмы для навигации, температурного контроля и включения музыки, и Qualcomm, которые в мае сообщили о разработке локальной модели распознавания голоса с точностью в 95%. Кроме того, они основывались на работе ирландской компании Voysys, недавно анонсировавшей офлайновую голосовую модель WaveNet для работы на мобильных устройствах, и Intel.
Разработчики смогли создать несколько моделей высокоэффективных нейронных сетей глубокого обучения, получивших название EdgeSpeechNets, для распознавания речи с ограниченным словарным запасом. Для оценки работоспособности и производительности этих нейронных сетей ученые использовали набор данных (dataset) Google Speech Commands, содержащий 65 000 односекундных образцов 30 коротких слов и образцов фоновых шумов.
Первая модель - EdgeSpeechNet-A - смогла добиться точности распознавания на 1% выше, чем у эталонной модели распознавания речи (res15), потребляя при этом существенно меньше мощности. Более того, она смогла добиться тестовой точности в 97%, превзойдя таким образом ранее опубликованные достижения.
Другая модель - EdgeSpeechNet-D - была запущена на телефоне Motorola Moto E с процессором Cortex-A53 1.4GHz и работала с задержкой в 34 миллисекунды и потреблением памяти менее 1 Мб. Т.е. с десятикратным снижением задержки и на 16,5% меньшим объемом памяти, по сравнению с упомянутой выше эталонной нейронной сетью.
Еще одна модель, самая маленькая из всех - EdgeSpeechNet-С - показала также более высокую точность, чем эталонная сеть, используя при этом в 7.8 раз меньше параметров и в 10.7 раз меньше операций умножения-сложения.
В итоге, по словам разработчиков,
EdgeSpeechNets работает с большей точностью при значительно меньшем размере и существенно меньших затратах вычислительной мощности, чем современные глубокие нейронные сети.