Применение предварительно обученных многоязычных моделей для распознавания карельской речи
Ключевые слова:
малоресурсные языки, карельский язык, переключение кодов, предобученные модели, машинное обучение, речевой корпусАннотация
В настоящей статье описывается экспериментальное исследование, направленное на решение проблемы обучения моделей для распознавания речи в условиях малого объема обучающих речевых и текстовых данных. Подробно рассматриваются существующие подходы к решению данной проблемы, в частности, использование преодобученных многоязычных моделей и аугментация данных. В работе проведена адаптация многоязычных моделей на базе Wav2Vec и Whisper к ливвиковскому наречию карельского языка и проведено исследование применения внешней языковой модели для повышения точности распознавания интегральной системы. Кроме того, в статье описаны специально собранная и подготовленная речевая база данных и базовая система распознавания, созданная на основе тулкита Kaldi. Приведены количественные результаты тестирования, которые подтверждают эффективность выбранных методов: так, использование моделей на архитектуре Трансформер, в частности, Wav2Vec, позволило достичь более высоких показателей, чем у базовых моделей, обученных с помощью программных средств Kaldi. Дообучение моделей Wav2Vec снизило количество неправильно распознанных слов до 24,73% на валидационной и до 25,25% на тестовой выборках, а использование модели Wav2Vec-BERT 2.0 с внешней языковой моделью дополнительно уменьшило количество неправильно распознанных слов до 17,12% и 17,72% соответственно. Статья адресована, в первую очередь, специалистам, занимающимся разработкой систем автоматического распознавания речи для малоресурсных языков и распознаванием речи на прибалтийско-финских языках, в частности, результаты этой работы могут найти практическое применение в полевых исследованиях, при записи текстов на карельском.
Литература
2. Kipyatkova I., Kagirov I. Deep Models for Low-Resourced Speech Recognition: Livvi-Karelian Case // Mathematics. 2023. vol. 11. no. 18. DOI: 10.3390/math11183814.
3. Kipyatkova I., Kagirov I. Phone Durations Modeling for Livvi-Karelian ASR // Proceedings 25th International Conference Speech and Computer (SPECOM 2023). Springer LNCS. 2023. vol. 14339. pp. 87–99. DOI: 10.1007/978-3-031-48312-7_7.
4. Kipyatkova I., Kagirov I., Dolgushin M., Rodionova A. Towards a Livvi-Karelian End-to-End ASR System // Proceedings 26th International Conference on Speech and Computer (SPECOM 2024). 2024. vol. 15299. pp. 57–68. DOI: 10.1007/978-3-031-77961-9_4.
5. Кипяткова И.С., Кагиров И.А. Аналитический обзор методов решения проблемы малых наборов данных при создании систем автоматического распознавания речи для малоресурсных языков // Информатика и автоматизация. 2022. Т. 21. № 4. С. 678–709. DOI: 10.15622/ia.21.4.2.
6. Baevski A., Zhou Y., Mohamed A., Auli M. wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations // Advances in Neural Information Processing Systems. 2020. vol. 33. pp. 12449–12460.
7. Conneau A., Baevski A., Collobert R., Mohamed A., Auli M. Unsupervised Cross-Lingual Representation Learning for Speech Recognition // Proceedings of the Annual Conference of the International Speech Communication Association (Interspeech’2021). 2021. pp. 2426–2430. DOI: 10.21437/Interspeech.2021-329.
8. Babu A., Wang C., Tjandra A., Lakhotia K., Xu Q., Goyal N., Singh K., Platen von P., Saraf Y., Pino J., Baevski A., Conneau A., Auli M. XLS-R: Self-Supervised Cross-Lingual Speech Representation Learning at Scale // Proceedings of the Annual Conference of the International Speech Communication Association (Interspeech’2022). 2022. pp. 2278–2282.
9. Pratap V., Tjandra A., Shi B., Tomasello P., Babu A., Kundu S., Elkahky A., Ni Zh., Vyas A., Fazel-Zarandi M., Baevski A., Adi Y., Zhang X., Hsu W.-N., Conneau A., Auli M. Scaling Speech Technology to 1,000+ Languages // Journal of Machine Learning Research. 2024. vol. 25. pp. 1–52.
10. Poth C., Sterz H., Paul I., Purkayastha S., Engländer L., Imhof T., Vulić I., Ruder S., Gurevych I., Pfeiffer J. Adapters: A unified Library for Parameter-Efficient and Modular Transfer Learning // Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing: System Demonstrations (EMNLP’2023). 2023. pp. 149–160. DOI: 10.18653/v1/2023.emnlp-demo.13.
11. Chung Y.A., Zhang Y., Han W., Chiu C.-C., Qin J., Pang R., Wu Y. W2v-bert: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training // Proceedings of 2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU’2021). 2021. pp. 244–250. DOI: 10.1109/ASRU51503.2021.9688253.
12. Devlin J., Chang M.W., Lee K., Toutanova K. Bert: Pre-Training of Deep Bidirectional Transformers for Language Understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT’2019). 2019. vol. 1. pp. 4171–4186.
13. Chen S., Wang C., Chen Z., Wu Y., Liu S., Chen Z., Li J., Kanda N., Yoshioka T., Xiao X., Wu J., Zhou L., Ren S., Qian Y., Qian Y., Wu J., Zeng M., Yu X., Wei F. WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing // IEEE Journal of Selected Topics in Signal Processing. 2022. vol. 16. no. 6. pp. 1505–1518.
14. Barrault L., Chung Y.A., Meglioli M.C., Dale D., Dong N., Duppenthaler M. et al. Seamless: Multilingual Expressive and Streaming Speech Translation // arXiv preprint arXiv:2312.05187. 2023.
15. Radford A., Kim J.W., Xu T., Brockman G., McLeavey C., Sutskever I. Robust Speech Recognition via Large-Scale Weak Supervision // Proceedings of the 40th International Conference on Machine Learning 2022 (ICML’23). 2023. pp. 28492–28518.
16. Williams A., Demarco A., Borg C. The applicability of Wav2Vec 2.0 and Whisper for Low-Resource Maltese ASR // Proceedings of the 2nd Annual Meeting of the ELRA/ISCA SIG on Under-resourced Languages (SIGUL’2023). 2023. pp. 39–43.
17. Kozhirbayev Z. Kazakh Speech Recognition: Wav2vec2.0 vs. Whisper // Journal of Advances in Information Technology. 2023. vol. 14. no. 6. pp. 1382–1389. DOI: 10.12720/jait.14.6.1382-1389.
18. Richardson F., Reynolds D., Dehak N. Deep Neural Network Approaches to Speaker and Language Recognition // IEEE Signal Processing Letters. 2015. vol. 22. no. 10. pp. 1671–1675. DOI: 10.1109/LSP.2015.2420092.
19. Winata G.I., Madotto A., Wu C.S., Fung P. Code-Switching Language Modeling using Syntax-Aware Multi-Task Learning // Proceedings of the Third Workshop on Computational Approaches to Linguistic Code-Switching (CALCS’2018). 2018. pp. 62–67. DOI: 10.18653/v1/W18-3207.
20. Adel H., Vu N.T., Kraus F., Schlippe T., Li H., Schultz T. Recurrent Neural Network Language Modeling for Code Switching Conversational Speech // Proceedings of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP’2013). 2013. pp. 8411–8415. DOI: 10.1109/ICASSP.2013.6639306.
21. Ramanarayanan V., Pugh R., Suenderman-Oeft D. Automatic Turn-Level Language Identification for Code-Switched Spanish-English Dialog // Proceedings of 9th International Workshop on Spoken Dialogue System Technology (IWSDS’2019). 2019. vol. 579. pp. 51–61. DOI: 10.1007/978-981-13-9443-0_5.
22. Mustafa M.B., Yusoof M.A., Khalaf H.K., Abushariah A.A.R.M., Kiah M.L.M., Ting H.N., Muthaiyah S. Code-Switching in Automatic Speech Recognition: The Issues and Future Directions // Applied Sciences. 2022. vol. 12. no. 19. DOI: 10.3390/app12199541.
23. Çetinoğlu Ö., Schulz S., Vu N.T. Challenges of Computational Processing of Code-Switching // Proceedings of the Second Workshop on Computational Approaches to Linguistic Code Switching (CALCS’2016). 2016. pp. 1–11. DOI: 10.18653/v1/W16-5801.
24. Winata G., Aji A.F., Yong Z.X., Solorio T. The Decades Progress on Code-Switching Research in NLP: A Systematic Survey on Trends and Challenges // Findings of the Association for Computational Linguistics (ACL’2023). 2023. pp. 2936–2978. DOI: 10.18653/v1/2023.findings-acl.185.
25. Hsieh I.T., Wu C.H., Wang C.H. Acoustic and Textual Data Augmentation for Code-Switching Speech Recognition in Under-Resourced Language // IEEE Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC’2020). 2020. pp. 302–307.
26. Chang C.-T., Chuang S.-P., Lee H.-Y. Code-Switching Sentence Generation by Generative Adversarial Networks and its Application to Data Augmentation // Proceedings of the Annual Conference of the International Speech Communication Association (Interspeech’2019). 2019. pp. 554–558. DOI: 10.21437/Interspeech.2019-3214.
27. Chan J.Y.C., Cao H., Ching P.C., Lee T. Automatic recognition of Cantonese-English Code-Mixing Speech // International Journal of Computational Linguistics and Chinese Language Processing. 2009. vol. 14. no. 3. pp. 281–304.
28. Adel H., Vu N.T., Kirchhoff K., Telaar D., Schultz T. Syntactic and Semantic Features for Code-Switching Factored Language Models // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2015. vol. 23. no. 3. pp. 431–440. DOI: 10.1109/TASLP.2015.2389622.
29. Hermann K.M., Blunsom P. Multilingual Models for Compositional Distributed Semantics // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2014. pp. 58–68. DOI: 10.3115/v1/P14-1006.
30. Conneau A., Khandelwal K., Goyal N., Chaudhary V., Wenzek G., Guzmán F., Grave É., Ott M., Zettlemoyer L., Stoyanov V. Unsupervised Cross-Lingual Representation Learning at Scale // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL’2020). pp. 8440–8451. DOI: 10.18653/v1/2020.acl-main.747.
31. Vüren van J., Niesler T. Improving N-best Rescoring in Under-Resourced Code-Switched Speech Recognition using Pretraining and Data Augmentation // Languages. 2022. vol. 7. no. 3. DOI: 10.3390/languages7030236.
32. Hono Y., Mitsuda K., Zhao T., Mitsui K., Wakatsuki T., Sawada K. Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition // Findings of the Association for Computational Linguistics: ACL 2024. 2024. pp. 13289–13305. DOI: 10.18653/v1/2024.findings-acl.787.
33. Ogunremi T., Manning C.D., Jurafsky D. Multilingual Self-Supervised Speech Representations Improve the Speech Recognition of Low-Resource African Languages with Code Switching // arXiv preprint arXiv:2311.15077. 2023.
34. Hori T., Cho J., Watanabe S. End-to-end speech recognition with word-based RNN language models // Proceedings of 2018 IEEE Spoken Language Technology Workshop (SLT-2018). 2018. pp. 389–396. DOI: 10.1109/SLT.2018.8639693.
35. Povey D., Ghoshal A., Boulianne G., Burget L., Glembek O., Goel N., Hannemann M., Motlíček O., Qian Y., Schwarz P., Silovský J., Stemmer G., Veselý K. The Kaldi Speech Recognition Toolkit // Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU’2011). 2011. pp. 1–4.
36. Кипяткова И.С., Родионова А.П., Кагиров И.А., Крижановский А.А. Подготовка речевых и текстовых данных для создания системы автоматического распознавания карельской речи // Учёные записки Петрозаводского государственного университета. 2023. Т. 45. № 5. С. 89–98.
37. Povey D., Cheng G., Wang Y., Li K., Xu H., Yarmohammadi M., Khudanpur S. Semi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks // Proceedings of The Annual Conference of the International Speech Communication Association (Interspeech’2018). 2018. pp. 3743–3747. DOI: 10.21437/Interspeech.2018-1417.
38. Saon G., Soltau H., Nahamoo D., Picheny M. Speaker Adaptation of Neural Network Acoustic Models using i-Vectors // Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU’2013). 2013. pp. 55–59. DOI: 10.1109/ASRU.2013.6707705.
39. Stolcke A., Zheng J., Wang W., Abrash V. SRILM at Sixteen: Update and Outlook // Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU’2011). 2011. pp. 5–9.
40. Enarvi S., Kurimo M. TheanoLM – An Extensible Toolkit for Neural Network Language Modeling // Proceedings of the Annual Conference of the International Speech Communication Association (Interspeech’2016). 2016. pp. 3052–3056. DOI: 10.21437/Interspeech.2016-618.
41. Karpov A., Markov K., Kipyatkova I., Vazhenina D., Ronzhin A. Large Vocabulary Russian Speech Recognition using Syntactico-Statistical Language Modeling // Speech Communication. 2014. vol. 56. pp. 213–228. DOI: 10.1016/j.specom.2013.07.004.
42. Wolf T., et al. Transformers: State-of-the-Art Natural Language Processing // arXiv preprint arXiv:1910.03771. 2019.
43. Grosz T., Getman Y., Al-Ghezi R., Rouhe A., Kurimo M. Investigating wav2vec2 Context Representations and the Effects of Fine-Tuning, a Case-Study of a Finnish Model // Proceedings of The Annual Conference of the International Speech Communication Association (Interspeech’2023). 2023. pp. 196–200. DOI: 10.21437/Interspeech.2023-837.
44. Hiovain-Asikainen K., Rosa de la J. Developing TTS and ASR for Lule and North Sámi Languages // Proceedings of the 2nd Annual Meeting of the ELRA/ISCA SIG on Under-resourced Languages (SIGUL’2023). 2023. pp. 48–52. DOI: 10.21437/SIGUL.2023-11.
45. Paonessa C., Timmel V., Vogel M., Perruchoud D. Whisper Fine-Tuning for Swiss German: A Data Perspective // Proceedings of the 9th edition of the Swiss Text Analytics Conference. 2024. pp. 192.
Опубликован
Как цитировать
Раздел
Copyright (c) Ирина Сергеевна Кипяткова, Ильдар Амирович Кагиров, Михаил Дмитриевич Долгушин

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).