ПОДХОДЫ К ЯЗЫКОВОМУ И АКУСТИЧЕСКОМУ МОДЕЛИРОВАНИЮ В РАСПОЗНАВАНИИ РЕЧИ

Авторы

И.И. Валуйцева, И.Е. Филатов

Аффилиация

Московский государственный областной университет

Выпуск 36

Страниц

7-30

DOI

https://doi.org/10.25076/vpl.36.01

Исследование посвящено вопросу эффективности традиционных и современных подходов к автоматическому распознаванию речи (ASR). В статье анализируется общая структура алгоритмов машинного распознавания речи, в частности, языкового и акустического моделирования, а также лексических данных; проиллюстрировано историческое развитие автоматического распознавания речи и представлены наиболее современные подходы. Проведен эксперимент, в котором с помощью определённого набора тестовых примеров производится сравнение нескольких приложений для распознавания речи. В выборке присутствует четыре разные системы ASR, основанные на разных алгоритмах акустического и языкового моделирования: во всех компонентах только в двух системах используется один и тот же подход, в двух других приложениях акустические и языковые модели основаны на разных алгоритмах – таким образом, структуры всех элементов выборки принципиально не похожи. Набор данных анализируется каждой системой с помощью программ на языке Python, выходных данные нормализуются и сравниваются по стандарту WER с заранее транскрибированными эталонными данными. Проведен анализ результатов тестирования, сделаны выводы о зависимости эффективности системы автоматического распознавания речи от оптимизации её элементов и обучения при помощи необходимого набора данных, в то время как нейросетевой и статистический подходы являются одинаково результативными в задачах языкового и акустического моделирования.

Ключевые слова

распознавание речи

акустическое моделирование

языковое моделирование

скрытые марковские модели

глубокое обучение

нейронные сети

PDF версия

01 Issue 36.pdf

Для цитирования

Валуйцева И.И., Филатов И.Е. Подходы к языковому и акустическому моделированию в распознавании речи // Вопросы прикладной лингвистики. № 36. С. 7-31

Статья доступна по лицензии Creative Commons Attribution 4.0 International License.

Эта статья доступна по Creative Commons Attribution 4.0 International License.