Усовершенствование распознавания сербской речи с помощью обученных на последовательностях глубоких нейронных сетей
Ключевые слова:
глубокая нейронная сеть, автоматическое распознавание речи, обучение на последовательностях, LF-MMI акценты, основной тон, сербскийАннотация
Представлены последние усовершенствования в распознавании сербской речи, достигнутые с использованием современных глубоких нейронных сетей, основанных на применении дискриминативного обучения на последовательностях для акустического моделирования. Описываются несколько вариантов новой системы распознавания слитной речи с большим словарем (LVCSR), которая основанна на обучении по критерию максимальной взаимной информации (LF-MMI) без использования решетки. Параметры системы варьировались таким образом, чтобы достичь наименьших значений ошибки распознавания слов (WER) и ошибки распознавания символов (CER) при использовании самой большой существующей речевой базы данных сербского языка и наилучшей n-граммной языковой модели общего назначения. В дополнение к настройке самой нейронной сети (числа слоев, сложности, объединения элементов слоя и т.д.) для получения наилучших результатов были исследованы и другие ориентированные на конкретный язык способы оптимизации, такие как использование акценто-зависимых моделей гласных фонем и их сочетание с тональными признаками. Также была исследована настройка речевой базы данных, которая включает в себя искусственное расширение базы данных путем изменения скорости речевых высказываний и масштабирование уровня громкости для учета вариативности речи. Результаты экспериментов показали, что 8-слойная глубокая нейронная сеть с 625 нейронами в каждом слое работает в данных условиях работает лучше других сетей без необходимости увеличения речевой базы данных или регулировки громкости. Кроме того, тональные признаки в сочетании с использованием акценто-зависимых моделей гласных обеспечивают наилучшие показатели точности во всех экспериментах. Ключевые слова: глубокая нейронная сеть, автоматическое распознавание речи, обучение на последовательностях, LF-MMI, акценты, основной тон, сербский.Литература
1. Popović B., Pakoci E., Ostrogonac S., Pekar D. Large vocabulary continuous speech recognition for Serbian using the Kaldi toolkit // Proceedings of 10th Conference on Digital Speech and Image Processing (DOGS’2014). 2014. pp. 31–34.
2. Popović B. et al. Deep neural network based continuous speech recognition for Serbian using the Kaldi toolkit // Proceedings of 17th International Conference on Speech and Computing (SPECOM’2015). 2015. LNCS 9319. pp. 186–192.
3. Pakoci E., Popović B., Pekar D. Language model optimization for a deep neural network based speech recognition system for Serbian // Proceedings of 19th International Conference on Speech and Computing (SPECOM’2017). 2017. LNAI 10458. pp. 483–492.
4. Povey D., Kuo H-K.J., Soltau H. Fast speaker adaptive training for speech recognition // Proceedings of 9th Annual Conference of the International Speech Communication Association (INTERSPEECH’2008). 2008. pp. 1245–1248.
5. Povey D., Zhang X., Khudanpur S. Parallel training of DNNs with natural gradient and parameter averaging // Proceedings of 3rd International Conference on Learning Representations Workshop (ICLR’2015). 2015. arXiv:1410.7455. 28 p.
6. Graves A., Fernández S., Gomez F., Schmidhuber J. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks // Proceedings of 23rd International Conference on Machine Learning (ACM’2006). 2006. pp. 369–376.
7. Povey D. et al. Purely sequence-trained neural networks for ASR based on lattice-free MMI // Proceedings of 17th Annual Conference of the International Speech Communication Association (INTERSPEECH’2016). 2016. pp. 2751–2755.
8. Sak H., Senior A., Rao K., Beaufays F. Fast and accurate recurrent neural network acoustic models for speech recognition // Proceedings of 16th Annual Conference of the International Speech Communication Association (INTERSPEECH’2015). 2015. pp. 1468–1472.
9. Povey D. Discriminative Training for Large Vocabulary Speech Recognition // Ph.D. thesis. Engineering Department. Cambridge University. 2003. 170 p.
10. Sak H. et al. Learning acoustic frame labeling for speech recognition with recurrent neural networks // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’2015). 2015. pp. 4280–4284.
11. Povey D. et al. The Kaldi speech recognition toolkit. Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU’2011). 2011. pp. 1–4.
12. Senior A. et al. Acoustic modelling with CD-CTC-SMBR LSTM RNNs // Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU’2015). 2015. pp. 604–609.
13. Povey D. et al. Boosted MMI for model and feature-space discriminative training // Proceedings of 33rd International Conference on Acoustics, Speech and Signal Processing (ICASSP’2008). 2008. pp. 4057–4060.
14. Su H., Li G, Yu D., Seide F. Error back propagation for sequence training of context-dependent deep networks for conversational speech transcription // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’2013). 2013. pp. 6664–6668.
15. Suzić S., Ostrogonac S., Pakoci E., Bojanić M. Building a Speech Repository for a Serbian LVCSR System // Telfor Journal. 2014. vol. 6. no. 2. pp. 109–114.
16. Kneser R., Ney H. Improved backing-off for M-gram language modeling // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’1995). 1995. pp. 181–184.
17. Stolcke A., Zheng J., Wang W., Abrash V. SRILM at sixteen: Update and outlook // Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU’2011). 2011. vol. 5. 5 p.
18. Bhanuprasad K., Svenson D. Errgrams - a way to improving ASR for highly inflected Dravidian languages // Proceedings of 3rd International Joint Conference on Natural Language Processing (IJCNLP’2008). 2008. pp. 805–810.
19. Miao Y., Gowayyed M., Metze F. EESEN: End-to-end speech recognition using deep RNN models and WFST-based decoding // Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU’2015). 2015. pp. 167–174.
20. Popović B., Pakoci E., Pekar D. End-to-end large vocabulary speech recognition for the Serbian language // Proceedings of 19th International Conference on Speech and Computing (SPECOM’2017). 2017. LNAI 10458. pp. 343–352.
21. Peddinti V., Povey D., Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts // Proceedings of 16th Annual Conference of the International Speech Communication Association (INTERSPEECH’2015). 2015. pp. 2–6.
22. Sak H., Senior A.W., Beaufays F. Long short-term memory recurrent neural network architectures for large scale acoustic modeling // Proceedings of 16th Annual Conference of the International Speech Communication Association (INTERSPEECH’2015). 2015. pp. 338−342.
2. Popović B. et al. Deep neural network based continuous speech recognition for Serbian using the Kaldi toolkit // Proceedings of 17th International Conference on Speech and Computing (SPECOM’2015). 2015. LNCS 9319. pp. 186–192.
3. Pakoci E., Popović B., Pekar D. Language model optimization for a deep neural network based speech recognition system for Serbian // Proceedings of 19th International Conference on Speech and Computing (SPECOM’2017). 2017. LNAI 10458. pp. 483–492.
4. Povey D., Kuo H-K.J., Soltau H. Fast speaker adaptive training for speech recognition // Proceedings of 9th Annual Conference of the International Speech Communication Association (INTERSPEECH’2008). 2008. pp. 1245–1248.
5. Povey D., Zhang X., Khudanpur S. Parallel training of DNNs with natural gradient and parameter averaging // Proceedings of 3rd International Conference on Learning Representations Workshop (ICLR’2015). 2015. arXiv:1410.7455. 28 p.
6. Graves A., Fernández S., Gomez F., Schmidhuber J. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks // Proceedings of 23rd International Conference on Machine Learning (ACM’2006). 2006. pp. 369–376.
7. Povey D. et al. Purely sequence-trained neural networks for ASR based on lattice-free MMI // Proceedings of 17th Annual Conference of the International Speech Communication Association (INTERSPEECH’2016). 2016. pp. 2751–2755.
8. Sak H., Senior A., Rao K., Beaufays F. Fast and accurate recurrent neural network acoustic models for speech recognition // Proceedings of 16th Annual Conference of the International Speech Communication Association (INTERSPEECH’2015). 2015. pp. 1468–1472.
9. Povey D. Discriminative Training for Large Vocabulary Speech Recognition // Ph.D. thesis. Engineering Department. Cambridge University. 2003. 170 p.
10. Sak H. et al. Learning acoustic frame labeling for speech recognition with recurrent neural networks // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’2015). 2015. pp. 4280–4284.
11. Povey D. et al. The Kaldi speech recognition toolkit. Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU’2011). 2011. pp. 1–4.
12. Senior A. et al. Acoustic modelling with CD-CTC-SMBR LSTM RNNs // Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU’2015). 2015. pp. 604–609.
13. Povey D. et al. Boosted MMI for model and feature-space discriminative training // Proceedings of 33rd International Conference on Acoustics, Speech and Signal Processing (ICASSP’2008). 2008. pp. 4057–4060.
14. Su H., Li G, Yu D., Seide F. Error back propagation for sequence training of context-dependent deep networks for conversational speech transcription // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’2013). 2013. pp. 6664–6668.
15. Suzić S., Ostrogonac S., Pakoci E., Bojanić M. Building a Speech Repository for a Serbian LVCSR System // Telfor Journal. 2014. vol. 6. no. 2. pp. 109–114.
16. Kneser R., Ney H. Improved backing-off for M-gram language modeling // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’1995). 1995. pp. 181–184.
17. Stolcke A., Zheng J., Wang W., Abrash V. SRILM at sixteen: Update and outlook // Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU’2011). 2011. vol. 5. 5 p.
18. Bhanuprasad K., Svenson D. Errgrams - a way to improving ASR for highly inflected Dravidian languages // Proceedings of 3rd International Joint Conference on Natural Language Processing (IJCNLP’2008). 2008. pp. 805–810.
19. Miao Y., Gowayyed M., Metze F. EESEN: End-to-end speech recognition using deep RNN models and WFST-based decoding // Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU’2015). 2015. pp. 167–174.
20. Popović B., Pakoci E., Pekar D. End-to-end large vocabulary speech recognition for the Serbian language // Proceedings of 19th International Conference on Speech and Computing (SPECOM’2017). 2017. LNAI 10458. pp. 343–352.
21. Peddinti V., Povey D., Khudanpur S. A time delay neural network architecture for efficient modeling of long temporal contexts // Proceedings of 16th Annual Conference of the International Speech Communication Association (INTERSPEECH’2015). 2015. pp. 2–6.
22. Sak H., Senior A.W., Beaufays F. Long short-term memory recurrent neural network architectures for large scale acoustic modeling // Proceedings of 16th Annual Conference of the International Speech Communication Association (INTERSPEECH’2015). 2015. pp. 338−342.
Опубликован
2018-06-01
Как цитировать
Пакоци, Э., Попович, Б., & Пекар, Д. Й. (2018). Усовершенствование распознавания сербской речи с помощью обученных на последовательностях глубоких нейронных сетей. Труды СПИИРАН, 3(58), 53-76. https://doi.org/10.15622/sp.58.3
Раздел
Искусственный интеллект, инженерия данных и знаний
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).