Методика выбора фонемного набора для автоматического распознавания русской речи
Ключевые слова:
автоматическое распознавание русской речи, акустическое моделирование, выбор фонемного набораАннотация
В статье описывается выбор оптимального фонемного набора для системы автоматического распознавания русской речи. При создании акустических моделей был предложен комбинированный метод для выбора наилучшего фонемного набора, объединяющий статистическую информацию и фонетические знания. В результате применения данного метода к русскому фонетическому набору алфавита IPA (International Phonetic Alphabet) был получен набор из 47 фонологических единиц, который был преобразован в несколько фонемных наборов с разным размером от 27 до 47 единиц. Эксперименты по распознаванию речи показали, что использование сокращенных фонемных наборов позволяет увеличить точность распознавания фонем. В ходе экспериментов с применением расширенной языковой модели и сверхбольшим словарем точность распознавания слов составила 73,1%. Полученные результаты соответствуют качеству распознавания слитной русской речи, полученному на настоящий момент другими организациями.
Литература
2. Karpov A., Kipyatkova I., Ronzhin A. Speech Recognition for East Slavic Languages: The Case of Russian // Proceedings of 3rd International Workshop on Spoken Languages Technologies for Under-resourced Languages SLTU'2012. Cape Town. RSA. 2012. pp. 84–89.
3. Кипяткова И.С., Карпов А.А. Аналитический обзор систем распознавания русской речи с большим словарем // Труды СПИИРАН. 2010. №1(12). С.7–20.
4. Kipyatkova I., Karpov A. Study of Morphological Factors of Factored Language Models for Russian ASR / Edited by A. Ronzhin et al. // SPECOM 2014. Springer International Publishing Switzerland. LNAI 8773. 2014. pp. 451–458.
5. Vazhenina D., Kipyatkova I., Markov K., Karpov A. State-of-the-art Speech Recognition Technologies for Russian Language // Proceedings of the Joint International Conference on Human-Centered Computer Environments HCCE-2012. Aizu-Wakamatsu. Japan. 2012. pp. 59–63.
6. Titov Y., Kilgour K., Stüker S., Waibel A. The 2011 kit quaero speech-to-text system for the Russian language // Proceedings of the 14th International Conference “Speech and Computer” (SPECOM’2011). 2011. pp. 136–143.
7. Shin E., Stüker S., Kilgour K., Fügen C., Waibel A. Maximum Entropy Language Modeling for Russian ASR // Proceedings of the International Workshop for Spoken Language Translation (IWSLT 2013). 2013.
8. Zablotskiy S., Shvets A., Sidorov M., Semenkin E., Minker W. Speech and Language Recources for LVCSR of Russia // Proceedings of LREC’2012. Istanbul. Turkey. 2012. pp. 3374–3377.
9. Zulkarneev M., Satunovsky P., Shamraev N. The use of d-gram language model for speech recognition in Russian // SPECOM 2013. Springer LNAI 8113. 2013. pp. 362–366.
10. Zulkarneev M., Grigoryan R., Shamraev N. Acoustic modeling with deep belief networks for Russian Speech // SPECOM 2013. Springer LNAI 8113. 2013. pp. 17–23.
11. Schalkwyk J., Beeferman D., Beaufays F., Byrne B., Chelba C. , Cohen M., Kamvar M., Strope B. Google Search by Voice: A Case Study // Advances in Speech Recognition: Mobile Environments, Call Centers and Clinics. 2010. pp. 61–90.
12. SpeechKit API. URL: http://api.yandex.ru/speechkit/ (дата обращения: 25.04.2014).
13. Levin K., Ponomareva I., Bulusheva A., Chernykh G., Medennikov I., Merkin N., Prudnikov A., Tomashenko N. Automated closed captioning for Russian live broadcasting // Proceedings of Interspeech'2014. 2014. pp. 1438–1442.
14. Young S., Odell J., Woodland P. Tree-based state tying for high accuracy acoustic modeling // Proceedings of Int. Workshop on Human Language Technology HLT’1994. Stroudsburg. PA. USA. 1994. pp. 307–312.
15. Young S. et al. The HTK book // Cambridge Univ. Press. 2009. 384 p.
16. Odell J. The use of context in large vocabulary speech recognition // Ph.D. thesis. Cambridge Univ., 1995.
17. Cubberley P. Russian: a linguistic introduction // Cambridge University Press. 2002.
18. Schultz T., Waibel A. Development of Multilingual acoustic models in the GlobalPhone project // Proceedings of TSD’1998. Brno. Czech Republic. 1998. pp. 311–316.
19. Psutka J., Ircing P., Psutka J.V., Hajic J., Byrne W.J., Mirovsky J. Automatic transcription of Czech, Russian, and Slovak spontaneous speech in the MALACH project // Proceedings of Interspeech’2005. Lisbon. Portugal. 2005. pp. 1349–1352.
20. Tatarnikova M., Tampel I., Oparin I., Khokhlov Y. Building acoustic models for a large vocabulary continuous speech recognizer for Russian // Proceedings of SPECOM’2006. St. Petersburg, Russia. 2006. pp. 83–87.
21. Stüker S., Schultz T. A grapheme based speech recognition system for Russian // Procceedings of International Conference SPECOM’2004. St. Petersburg, Russia. 2004. pp. 297–303.
22. Ronzhin A., Karpov A. Russian Voice Interface // Pattern Recognition and Image Analysis. 2007. vol. 17. no. 2. pp. 321–336.
23. Zhang J.S., Hu X.H., Nakamura S. Using mutual information criterion to design an efficient phoneme set for Chinese speech recognition // IEICE Transactions on Information and Systems. 2008. vol. E91-D. no. 3. 2008. pp. 508–513.
24. Singh R., Raj B., Stern R. Automatic generation of subword units for speech recognition systems // IEEE Transactions on Acoustics. Speech and Signal Processing. 2002. no. 10(2). pp. 89–99.
25. Шведова Н.Ю. (гл. ред.) и др. Русская грамматика // М.: Наука. 1980. 783 с.
26. Кипяткова И.С., Карпов А.А. Модуль фонематического транскрибирования для системы распознавания разговорной русской речи // Искусственный интеллект, Донецк. Украина. 2008. № 4. 2008. С. 747–757.
27. Jokisch O., Wagner A., Sabo R., Jaeckel R., Cylwik N., Rusko M., Ronzhin A., Hoffmann R. Multilingual speech data collection for the assessment of pronunciation and prosody in a language learning system // Proceedings of SPECOM’2009. St. Petersburg. Russia. 2009. pp. 515–520.
28. Vazhenina D., Markov K. Phoneme set selection for Russian speech recognition // Proceedings of Int. Conf. on Natural Language Processing and Knowledge Engineering NLP-KE. Tokushima. Japan. 2011. pp. 475–478.
29. Karpov A., Markov K., Kipyatkova I., Vazhenina D., Ronzhin A. Large vocabulary Russian speech recognition using syntactico-statistical language modeling // Speech Communication. 2014. vol. 56. pp. 213–228.
30. Кипяткова И.С. Программно-алгоритмическое обеспечение создания синтаксическо-статистической модели русского языка по текстовому корпусу // Труды СПИИРАН. 2013. Вып. 24. С. 332–348.
31. Lee A., Kawahara T. Recent Development of Open-Source Speech Recognition Engine Julius // Proceedings of Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2009). Sapporo. Japan. 2009. pp.131–137.