Блочный алгоритм декодирования с синхронизацией по входу для CTC-AED систем распознавания речи
Ключевые слова:
потоковое распознавание речи, блочное декодирование, сквозные модели, AED, CTCАннотация
Для работы в реальных условиях от систем автоматического распознавания речи требуется обеспечивать стабильную точность распознавания при обработке входного аудиопотока произвольной длины в условиях ограниченных вычислительных ресурсов. Объединенная модель из коннекционисткой темпоральной классификации (connectionist temporal classification, CTC) и кодировщик-декодировщика с механизмом внимания (attention-based encoder-decoder, AED) обеспечивают высокое качество распознавания, но исходная версия модели не удовлетворяет данным требованиям. В данной статье предлагается алгоритм блочного декодирования с синхронизацией по входу для совместной модели CTC-AED. Алгоритм обрабатывает перекрывающиеся блоки аудио синхронно относительно входной последовательности признаков, используя CTC-выравнивание для определения соответствующего контекста на перекрывающемся участке для AED декодировщика. Фиксированная длина блока обеспечивает предсказуемое и ограниченное потребление ресурсов и позволяет избежать проблем с обобщением на длинных речевых сегментах, в то время как перекрытие блоков снижает ухудшение качества распознавания, вызванное краевыми эффектами на границах блоков. В отличие от других алгоритмов декодирования для CTC-AED, предложенный алгоритм не требует ни модификации архитектуры модели, ни специальной процедуры обучения, и, в то же время, поддерживает перекрытие блоков. В работе также исследуется производительность предложенного алгоритма с точки зрения доли словесных ошибок (word error rate, WER) в зависимости от размера блока и размера перекрытия.
Литература
2. Graves A., Fernandez S., Gomez F., Schmidhuber J. Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. Proceedings of the 23rd international conference on Machine learning. 2006. pp. 369–376. DOI: 10.1145/1143844.1143891.
3. Graves A., Mohamed A.-r., Hinton G. Speech recognition with deep recurrent neural networks. IEEE International Conference on Acoustics, Speech and Signal Processing. 2013. pp. 6645–6649. DOI: 10.1109/ICASSP.2013.6638947.
4. Chorowski J.K., Bahdanau D., Serdyuk D., Cho K., Bengio Y. Attention-based models for speech recognition. Advances in neural information processing systems. 2015. vol. 28.
5. Prabhavalkar R., Rao K., Sainath T.N., Li B., Johnson L., Jaitly N. A comparison of sequence-to-sequence models for speech recognition. Proceedings of Interspeech. 2017. pp. 939–943. DOI: 10.21437/Interspeech.2017-233.
6. Li B., Pang R., Sainath T.N., et al. Scaling end-to-end models for large-scale multilingual ASR. IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). 2021. pp. 1011–1018. DOI: 10.1109/ASRU51503.2021.9687871.
7. Kanda N., Ye G., Gaur Y., Wang X., Meng Z., Chen Z., Yoshioka T. End-to-end speaker-attributed ASR with transformer. Proceedings of Interspeech. 2021. pp. 4413–4417. DOI: 10.21437/Interspeech.2021-101.
8. Watanabe S., Hori T., Kim S., Hershey J.R., Hayashi T. Hybrid CTC/attention architecture for end-to-end speech recognition. IEEE Journal of Selected Topics in Signal Processing. 2017. vol. 11. no. 8. pp. 1240–1253. DOI: 10.1109/JSTSP.2017.2763455.
9. Yan B., Dalmia S., Higuchi Y., Neubig G., Metze F., Black A.W., Watanabe S. CTC alignments improve autoregressive translation. Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics. 2023. pp. 1623–1639. DOI: 10.18653/v1/2023.eacl-main.119.
10. Vaswani A., Shazeer N., Parmar N., et al. Attention is all you need. Advances in Neural Information Processing Systems (NIPS 2017). 2017. vol. 30.
11. Chiu C.-C., Han W., Zhang Y., et al. A comparison of end-to-end models for long-form speech recognition. IEEE Automatic Speech Recognition and UnderstandingWorkshop (ASRU). 2019. pp. 889–896. DOI: 10.1109/ASRU46091.2019.9003854.
12. Varis D., Bojar O. Sequence length is a domain: Length-based overfitting in transformer models. Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021. pp. 8246–8257. DOI: 10.18653/v1/2021.emnlp-main.650.
13. Chiu C.-C., Raffel C. Monotonic chunkwise attention. arXiv preprint arXiv:1712.05382. 2017.
14. Tsunoo E., Kashiwagi Y., Kumakura T., Watanabe S. Towards online end-to-end transformer automatic speech recognition. arXiv preprint arXiv: 1910.11871. 2019. DOI: 10.48550/arXiv.1910.11871.
15. Miao H., Cheng G., Zhang P., Yan Y. Online hybrid CTC/attention end-to-end automatic speech recognition architecture. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2020. vol. 28. pp. 1452–1465. DOI: 10.1109/TASLP.2020.2987752.
16. Miao H., Cheng G., Gao C., Zhang P., Yan Y. Transformer-based online CTC/attention end-to-end speech recognition architecture. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020). 2020. pp. 6084–6088. DOI: 10.1109/ICASSP40776.2020.9053165.
17. Inaguma H., Mimura M., Kawahara T. Enhancing monotonic multihead attention for streaming ASR. Proceedings of Interspeech. 2020. pp. 2137–2141. DOI: 10.21437/Interspeech.2020-1780.
18. Moritz N., Hori T., Le J. Streaming automatic speech recognition with the transformer model. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020). 2020. pp. 6074–6078. DOI: 10.1109/ICASSP40776.2020.9054476.
19. Tsunoo E., Kashiwagi Y., Watanabe S. Streaming transformer asr with blockwise synchronous beam search. IEEE Spoken Language Technology Workshop (SLT). 2021. pp. 22–29. DOI: 10.1109/SLT48900.2021.9383517.
20. Tsunoo E., Narisetty C., Hentschel M., Kashiwagi Y., Watanabe S. Run-and-back stitch search: Novel block synchronous decoding for streaming encoder-decoder ASR. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2022). 2022. pp. 8287–8291. DOI: 10.1109/ICASSP43922.2022.9747800.
21. Zeineldeen M., Zeyer A., Schluter R., Ney H. Chunked attention-based encoderdecoder model for streaming speech recognition. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2024-2024). 2024. pp. 11331–11335. DOI: 10.1109/ICASSP48485.2024.10446035.
22. Watanabe S., Hori T., Karita S., Hayashi, T., Nishitoba, J., Unno, Y., Enrique Yalta Soplin, N., Heymann, J., Wiesner, M., Chen, N., Renduchintala, A., Ochiai, T. ESPnet: End-to-end speech processing toolkit. Proceedings of Interspeech. 2018. pp. 2207–2211. DOI: 10.21437/Interspeech.2018-1456.
23. Andrusenko A., Nasretdinov R., Romanenko A. Uconv-conformer: High reduction of input sequence length for end-to-end speech recognition. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2023-2023). 2023. pp. 1–5.
Опубликован
Как цитировать
Раздел
Copyright (c) Юрий Игоревич Леженин, Богач Владимировна Наталья

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).