Разновидности глубоких искусственных нейронных сетей для систем распознавания речи
Ключевые слова:
автоматическое распознавание речи, нейронные сети, акустические модели, модели языкаАннотация
В статье представлен аналитический обзор основных разновидностей акустических и языковых моделей на основе искусственных нейронных сетей для систем автоматического распознавания речи. Рассмотрены гибридный и тандемный под-ходы объединения скрытых марковских моделей и искусственных нейронных сетей для акустического моделирования, описано построение языковых моделей с применением сетей прямого распространения и рекуррентных нейросетей. Обзор исследований в данной области показывает, что применение искусственных нейронных сетей как на этапе акустического, так и на этапе языкового моделирования позволяет снизить ошибку распознавания слов.Литература
1. Rabiner L., Juang B. Speech Recognition. Chapter in Springer Handbook of Speech Processing // NY: Springer. 2008.
2. Rabiner L., Juang B.-H. Fundamentals of Speech Recognition // Prentice Hall. 1993. 507 p.
3. Ронжин А.Л., Карпов А.А., Ли И.В. Речевой и многомодальный интерфейсы // М.: Наука. 2006. 173 с.
4. Джелинек Ф. Распознавание непрерывной речи статистическими методами // Труды института инженеров по электронике и радиотехнике. 1976. Т. 64. № 4. С. 131–160.
5. Кипяткова И.С., Карпов А.А. Разработка и исследование статистической модели русского языка // Труды СПИИРАН. 2010. Вып. 1(12). С.35–49.
6. Hinton G. et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups // IEEE Signal Pro-cessing Magazine. 2012. vol. 29. no. 6. pp. 82–97.
7. Маковкин К.А. Гибридные модели – Скрытые марковские моде-ли/Многослойный персептрон и их применение в системах распознавания речи. Обзор // Речевые технологии. 2012. № 3. С. 58–83.
8. Yu D., Deng L. Automatic Speech Recognition - A Deep Learning Approach // Springer. 2015. 322 p.
9. Deng L. Deep learning: from speech recognition to language and multimodal processing // APSIPA Transactions on Signal and Information Processing. 2016. vol 5. pp. 1–15.
10. Seide F., Li G., Yu D. Conversational speech transcription using context-dependent deep neural networks // Proceedings of Interspeech. 2011. pp. 437–440.
11. Dahl G., Yu D., Deng L., Acero A. Context-dependent pre-trained deep neural networks for large vocabulary speech recognition // IEEE Transactions on Audio, Speech and Language Processing. 2012. vol. 20. no. 1. pp. 30–42.
12. Ellis D.P.W., Singh R., Sivadas S. Tandem Acoustic Modeling in Large-Vocabulary Recognition // Proceedings of ICASSP. 2001.
13. Grezl F., Karafiat M., Kontar S., Cernocky J. Probabilistic and bottle-neck features for LVCSR of meetings // Proceedings of ICASSP. 2007. pp. 757–760.
14. Maas A.L. et al. Building DNN Acoustic Models for Large Vocabulary Speech Recognition // preprint arXiv:1406.7806. 2015. http://arxiv.org/pdf/1406.7806.pdf (дата обращения: 14.09.2016).
15. Cosi P. A KALDI-DNN-based ASR system for Italian // Proceedings of IEEE International Joint Conference on Neural Networks IJCNN'2015. 2015. pp. 1–5.
16. Veselý K. et al. Sequence-discriminative training of deep neural net-works //Proceedings of INTERSPEECH'2013. 2013. pp. 2345–2349.
17. Povey D., Zhang X., Khudanpur S. Parallel training of DNNs with natural gradient and parameter averaging // preprint arXiv:1410.7455. 2014. URL: http://arxiv.org/pdf/1410.7455v8.pdf (дата обращения: 14.09.2016).
18. Popović B. et al. Deep Neural Network Based Continuous Speech Recognition for Serbian Using the Kaldi Toolkit // Proceedings of the 17th International Conference on Speech and Computer (SPECOM-2015). Springer. 2015. LNAI 9319. pp. 186–192.
19. Miao Y. Kaldi+ PDNN: building DNN-based ASR systems with Kaldi and PDNN // arXiv preprint arXiv:1401.6984. 2014. URL: https://arxiv.org/ftp/arxiv/papers/1401/1401.6984.pdf (дата обращения: 14.09.2016).
20. Sainath T.N., Mohamed A.R., Kingsbury B., Ramabhadran B. Deep convolutional neural networks for LVCSR // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2013. pp. 8614–8618.
21. Delcroix M. et al. Context adaptive neural network for rapid adaptation of deep CNN based acoustic models // Proceedings of INTERSPEECH-2016. 2016. pp. 1573–1577.
22. Гапочкин А.В. Нейронные сети в системах распознавания речи // Science Time. 2014. № 1(1). pp. 29–36.
23. Waibel A. et al. Phoneme recognition using time-delay neural networks // IEEE Transactions on acoustics, speech, and signal processing. 1989. vol. 37. no. 3. pp. 328–339.
24. Peddinti V., Povey D., Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts // Proceedings of INTERSPEECH-2015. 2015. pp. 2440–2444.
25. Тампель И.Б. Автоматическое распознавание речи – основные этапы за 50 лет // Научно-технический вестник информационных технологий, механики и оптики. 2015. Т. 15. № 6. С 957–968.
26. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. 1997. vol. 9. no. 8. pp. 1735–1780.
27. Geiger J.T. et al. Robust speech recognition using long short-term memory recurrent neural networks for hybrid acoustic modelling // Proceedings of INTERSPEECH-2014. 2014. pp. 631–635.
28. Zhang Y. et al. Towards End-to-End Speech Recognition with Deep Convolutional Neural Networks // Proceedings of INTERSPEECH-2016. 2016. pp. 410–414.
29. Graves A., Fernґandez S., Gomez F., Schmidhuber J. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks // Proceedings of the 23rd international conference on Machine learning. 2006. pp. 369–376.
30. Graves A., Jaitly N. Towards End-To-End Speech Recognition with Recurrent Neural Networks // Proceedings of 31st International Conference on Machine Learning. 2014. vol. 14. pp. 1764–1772.
31. Зулкарнеев М.Ю., Репалов С.А., Шамраев Н.Г. Система распознавания русской речи, использующая глубокие нейронные сети и преобразователи на основе конечных автоматов // Нейрокомпьютеры: разработка, применение. 2013. № 10. С. 40–46.
32. Tomashenko N., Khokhlov Y. Speaker adaptation of context dependent deep neural networks based on MAP-adaptation and GMM-derived feature processing // Proceedings of INTERSPEECH-2014. 2014. pp. 2997–3001.
33. Prudnikov A. et al. Improving Acoustic Models for Russian Spontaneous Speech Recognition // Speech and Computer (SPECOM 2015). Springer International Publishing. 2015. LNAI 8113. pp. 234–242.
34. Povey D. et al. The Kaldi speech recognition toolkit // IEEE Workshop on Automatic Speech Recognition and Understanding ASRU. 2011.
35. Rybach D. et al. RASR - The RWTH Aachen University Open Source Speech Recognition Toolkit // IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). 2011.
36. Zhang C., Woodland P.C. A general artificial neural network extension for HTK // Proceedings of INTERSPEECH-2015. 2015. pp. 3581–3585.
37. Gandhe A., Metze F., Lane I. Neural Network Language Models for Low Resource Languages // Proceedings of INTERSPEECH-2014. 2014. pp. 2615–2619.
38. Elman J.L. Finding Structure in Time // Cognitive Science. 1990. vol. 14. pp. 179–211.
39. Mikolov T. et al. Recurrent neural network based language model // Proceedings of INTERSPEECH'2010. 2010. pp. 1045–1048.
40. Schwenk H., Gauvain J.-L. Training Neural Network Language Models On Very Large Corpora // Proceedings of Conference on Empirical Methods on Natural Language Processing. 2005. pp. 201–208.
41. Sundermeyer M. et al. Comparison of Feedforward and Recurrent Neural Network Language Models // Proceedings of ICASSP'2013. 2013. pp. 8430–8434.
42. Shi Y., Larson M., Wiggers P., Jonker C.M. Exploiting the Succeeding Words in Recurrent Neural Network // Proceedings of INTERSPEECH'2013. 2013. pp. 632–636.
43. Mikolov T. et al. Strategies for Training Large Scale Neural Network Language Models // Proceedings of ASRU'2011. 2011. pp. 196–201.
44. Huang Z., Zweig G., Dumoulin B. Cache based recurrent neural network language model inference for first pass speech recognition // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2014. pp. 6404–6408.
45. Morioka T., Iwata T., Hori T., Kobayashi T. Multiscale recurrent neural network based language model // Proceedings of INTERSPEECH-2015. 2015. pp. 2366–2370.
46. Vazhenina D., Markov K. Evaluation of advanced language modelling techniques for Russian LVCSR // Proceedings of SPECOM 2013. Springer. 2013. LNAI 8113. pp. 124–131.
47. Kipyatkova I., Karpov A. Recurrent Neural Network-based Language Modeling for an Automatic Russian Speech Recognition System // Proceedings of International Conference AINL-ISMW FRUCT 2015. 2015. pp. 33–38.
48. Bell P. et al. A lecture transcription system combining neural network acoustic and language models // Proceedings of INTERSPEECH'2013. 2013. pp. 3087–3091.
49. Medennikov I., Prudnikov A. Advances in STC Russian Spontaneous Speech Recognition System // Speech and Computer. Springer. Proceedings of SPECOM-2016. 2016. LNAI 9811. pp. 116–123.
50. Mikolov T. et al. RNNLM - Recurrent Neural Network Language Modeling Toolkit // Proceedings of the 2011 ASRU Workshop. 2011. pp. 196–201.
51. Enarvi S., Kurimo M. TheanoLM-An Extensible Toolkit for Neural Network Language Modeling // arXiv preprint arXiv:1605.00942. 2016. URL: https://arxiv.org/pdf/1605.00942v2.pdf (дата обращения: 12.10.2016).
2. Rabiner L., Juang B.-H. Fundamentals of Speech Recognition // Prentice Hall. 1993. 507 p.
3. Ронжин А.Л., Карпов А.А., Ли И.В. Речевой и многомодальный интерфейсы // М.: Наука. 2006. 173 с.
4. Джелинек Ф. Распознавание непрерывной речи статистическими методами // Труды института инженеров по электронике и радиотехнике. 1976. Т. 64. № 4. С. 131–160.
5. Кипяткова И.С., Карпов А.А. Разработка и исследование статистической модели русского языка // Труды СПИИРАН. 2010. Вып. 1(12). С.35–49.
6. Hinton G. et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups // IEEE Signal Pro-cessing Magazine. 2012. vol. 29. no. 6. pp. 82–97.
7. Маковкин К.А. Гибридные модели – Скрытые марковские моде-ли/Многослойный персептрон и их применение в системах распознавания речи. Обзор // Речевые технологии. 2012. № 3. С. 58–83.
8. Yu D., Deng L. Automatic Speech Recognition - A Deep Learning Approach // Springer. 2015. 322 p.
9. Deng L. Deep learning: from speech recognition to language and multimodal processing // APSIPA Transactions on Signal and Information Processing. 2016. vol 5. pp. 1–15.
10. Seide F., Li G., Yu D. Conversational speech transcription using context-dependent deep neural networks // Proceedings of Interspeech. 2011. pp. 437–440.
11. Dahl G., Yu D., Deng L., Acero A. Context-dependent pre-trained deep neural networks for large vocabulary speech recognition // IEEE Transactions on Audio, Speech and Language Processing. 2012. vol. 20. no. 1. pp. 30–42.
12. Ellis D.P.W., Singh R., Sivadas S. Tandem Acoustic Modeling in Large-Vocabulary Recognition // Proceedings of ICASSP. 2001.
13. Grezl F., Karafiat M., Kontar S., Cernocky J. Probabilistic and bottle-neck features for LVCSR of meetings // Proceedings of ICASSP. 2007. pp. 757–760.
14. Maas A.L. et al. Building DNN Acoustic Models for Large Vocabulary Speech Recognition // preprint arXiv:1406.7806. 2015. http://arxiv.org/pdf/1406.7806.pdf (дата обращения: 14.09.2016).
15. Cosi P. A KALDI-DNN-based ASR system for Italian // Proceedings of IEEE International Joint Conference on Neural Networks IJCNN'2015. 2015. pp. 1–5.
16. Veselý K. et al. Sequence-discriminative training of deep neural net-works //Proceedings of INTERSPEECH'2013. 2013. pp. 2345–2349.
17. Povey D., Zhang X., Khudanpur S. Parallel training of DNNs with natural gradient and parameter averaging // preprint arXiv:1410.7455. 2014. URL: http://arxiv.org/pdf/1410.7455v8.pdf (дата обращения: 14.09.2016).
18. Popović B. et al. Deep Neural Network Based Continuous Speech Recognition for Serbian Using the Kaldi Toolkit // Proceedings of the 17th International Conference on Speech and Computer (SPECOM-2015). Springer. 2015. LNAI 9319. pp. 186–192.
19. Miao Y. Kaldi+ PDNN: building DNN-based ASR systems with Kaldi and PDNN // arXiv preprint arXiv:1401.6984. 2014. URL: https://arxiv.org/ftp/arxiv/papers/1401/1401.6984.pdf (дата обращения: 14.09.2016).
20. Sainath T.N., Mohamed A.R., Kingsbury B., Ramabhadran B. Deep convolutional neural networks for LVCSR // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2013. pp. 8614–8618.
21. Delcroix M. et al. Context adaptive neural network for rapid adaptation of deep CNN based acoustic models // Proceedings of INTERSPEECH-2016. 2016. pp. 1573–1577.
22. Гапочкин А.В. Нейронные сети в системах распознавания речи // Science Time. 2014. № 1(1). pp. 29–36.
23. Waibel A. et al. Phoneme recognition using time-delay neural networks // IEEE Transactions on acoustics, speech, and signal processing. 1989. vol. 37. no. 3. pp. 328–339.
24. Peddinti V., Povey D., Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts // Proceedings of INTERSPEECH-2015. 2015. pp. 2440–2444.
25. Тампель И.Б. Автоматическое распознавание речи – основные этапы за 50 лет // Научно-технический вестник информационных технологий, механики и оптики. 2015. Т. 15. № 6. С 957–968.
26. Hochreiter S., Schmidhuber J. Long short-term memory // Neural computation. 1997. vol. 9. no. 8. pp. 1735–1780.
27. Geiger J.T. et al. Robust speech recognition using long short-term memory recurrent neural networks for hybrid acoustic modelling // Proceedings of INTERSPEECH-2014. 2014. pp. 631–635.
28. Zhang Y. et al. Towards End-to-End Speech Recognition with Deep Convolutional Neural Networks // Proceedings of INTERSPEECH-2016. 2016. pp. 410–414.
29. Graves A., Fernґandez S., Gomez F., Schmidhuber J. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks // Proceedings of the 23rd international conference on Machine learning. 2006. pp. 369–376.
30. Graves A., Jaitly N. Towards End-To-End Speech Recognition with Recurrent Neural Networks // Proceedings of 31st International Conference on Machine Learning. 2014. vol. 14. pp. 1764–1772.
31. Зулкарнеев М.Ю., Репалов С.А., Шамраев Н.Г. Система распознавания русской речи, использующая глубокие нейронные сети и преобразователи на основе конечных автоматов // Нейрокомпьютеры: разработка, применение. 2013. № 10. С. 40–46.
32. Tomashenko N., Khokhlov Y. Speaker adaptation of context dependent deep neural networks based on MAP-adaptation and GMM-derived feature processing // Proceedings of INTERSPEECH-2014. 2014. pp. 2997–3001.
33. Prudnikov A. et al. Improving Acoustic Models for Russian Spontaneous Speech Recognition // Speech and Computer (SPECOM 2015). Springer International Publishing. 2015. LNAI 8113. pp. 234–242.
34. Povey D. et al. The Kaldi speech recognition toolkit // IEEE Workshop on Automatic Speech Recognition and Understanding ASRU. 2011.
35. Rybach D. et al. RASR - The RWTH Aachen University Open Source Speech Recognition Toolkit // IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). 2011.
36. Zhang C., Woodland P.C. A general artificial neural network extension for HTK // Proceedings of INTERSPEECH-2015. 2015. pp. 3581–3585.
37. Gandhe A., Metze F., Lane I. Neural Network Language Models for Low Resource Languages // Proceedings of INTERSPEECH-2014. 2014. pp. 2615–2619.
38. Elman J.L. Finding Structure in Time // Cognitive Science. 1990. vol. 14. pp. 179–211.
39. Mikolov T. et al. Recurrent neural network based language model // Proceedings of INTERSPEECH'2010. 2010. pp. 1045–1048.
40. Schwenk H., Gauvain J.-L. Training Neural Network Language Models On Very Large Corpora // Proceedings of Conference on Empirical Methods on Natural Language Processing. 2005. pp. 201–208.
41. Sundermeyer M. et al. Comparison of Feedforward and Recurrent Neural Network Language Models // Proceedings of ICASSP'2013. 2013. pp. 8430–8434.
42. Shi Y., Larson M., Wiggers P., Jonker C.M. Exploiting the Succeeding Words in Recurrent Neural Network // Proceedings of INTERSPEECH'2013. 2013. pp. 632–636.
43. Mikolov T. et al. Strategies for Training Large Scale Neural Network Language Models // Proceedings of ASRU'2011. 2011. pp. 196–201.
44. Huang Z., Zweig G., Dumoulin B. Cache based recurrent neural network language model inference for first pass speech recognition // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2014. pp. 6404–6408.
45. Morioka T., Iwata T., Hori T., Kobayashi T. Multiscale recurrent neural network based language model // Proceedings of INTERSPEECH-2015. 2015. pp. 2366–2370.
46. Vazhenina D., Markov K. Evaluation of advanced language modelling techniques for Russian LVCSR // Proceedings of SPECOM 2013. Springer. 2013. LNAI 8113. pp. 124–131.
47. Kipyatkova I., Karpov A. Recurrent Neural Network-based Language Modeling for an Automatic Russian Speech Recognition System // Proceedings of International Conference AINL-ISMW FRUCT 2015. 2015. pp. 33–38.
48. Bell P. et al. A lecture transcription system combining neural network acoustic and language models // Proceedings of INTERSPEECH'2013. 2013. pp. 3087–3091.
49. Medennikov I., Prudnikov A. Advances in STC Russian Spontaneous Speech Recognition System // Speech and Computer. Springer. Proceedings of SPECOM-2016. 2016. LNAI 9811. pp. 116–123.
50. Mikolov T. et al. RNNLM - Recurrent Neural Network Language Modeling Toolkit // Proceedings of the 2011 ASRU Workshop. 2011. pp. 196–201.
51. Enarvi S., Kurimo M. TheanoLM-An Extensible Toolkit for Neural Network Language Modeling // arXiv preprint arXiv:1605.00942. 2016. URL: https://arxiv.org/pdf/1605.00942v2.pdf (дата обращения: 12.10.2016).
Опубликован
2016-12-15
Как цитировать
Кипяткова, И. С., & Карпов, А. А. (2016). Разновидности глубоких искусственных нейронных сетей для систем распознавания речи. Труды СПИИРАН, 6(49), 80-103. https://doi.org/10.15622/sp.49.5
Раздел
Методы управления и обработки информации
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).