Распознавание шепотной речи с использованием СММ и частотного преобразования по μ-закону
Ключевые слова:
автоматическое распознавание речи извлечение признаков скрытые марковские модели, человеческий голос, шепот, обработка речиАннотация
Отсутствие достаточного количества данных шепотной речи для обучения является серьезной проблемой для современных систем автоматического распознавания речи (АРР). Из-за большого акустического различия между обычной и шепотной речью АРР системы значительно снижают производительность при обработке шепота. В статье приведен анализ подходов к распознаванию нейтральной и шепотной речи на основе традиционных скрытых марковских моделей (СММ) для дикторозависимых (SD) и дикторонезависимых (SI) случаев. Особое внимание уделяется распознаванию шепотной речи с использованием нейтральной речи на этапе обучения (сценарий N/W). Система АРР разработана для распознавания изолированных слов из базы данных (Whi-Spe), включающей пары слов реально произнесенной речи нейтрально и шепотом. В сценарии N/W увеличение надежности достигается с применением предлагаемого частотного преобразования, изначально разработанного для сжатия и декомпрессии речевого сигнала в цифровых телекоммуникационных системах. Вместе с тем сохраняются хорошие показатели в распознавании нейтральной речи. По сравнению с базовой моделью распознавания с применением Мел-частотных кепстральных коэффициентов (MFCC) точность распознавания слов с использованием кепстральных коэффициентов, полученных с помощью предложенного частотного деформирования (обозначаемого как μFCC), улучшена на 7,36% (SD) и 3,44% (SI) в абсолютных значениях. Кроме того, F-мера (гармоническое среднее значение точности и полноты) для векторов признаков μFCC увеличивается на 6,90% (SD) и 3,59 %(SI). Статистические тесты подтверждают значимость достигнутого улучшения точности распознавания.Литература
1. Zhang C., Hansen J.H.L. Analysis and classification of speech mode: whispered through shouted // Eighth Annual Conference of the International Speech Communication Association. 2007. pp. 2289–2292.
2. Ito T., Takeda K., Itakura F. Analysis and recognition of whispered speech // Speech Communication. 2005. vol. 45. no. 2. pp. 129–152.
3. Ghaffarzadegan S., Boril H., Hansen J.H.L. UT-VOCAL EFFORT II: Analysis and constrained-lexicon recognition of whispered speech // 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2014. pp. 2544–2548.
4. Marković B., Jovic̆ić S.T., Galić J., Grozdić Đ. Whispered speech database: Design, processing and application // International Conference on Text, Speech and Dialogue. 2013. pp. 591–598.
5. Lee P.X. et al. A whispered Mandarin corpus for speech technology applications // Fifteenth Annual Conference of the International Speech Communication Association. 2014. pp. 1598–1602.
6. Kozierski P. et al. Kaldi toolkit in Polish whispery speech recognition // Przeglad Elektrotechniczny. 2016. vol. 92. pp. 301–304.
7. Fan X., Hansen J.H.L. Speaker identification for whispered speech based on frequency warping and score competition // Ninth Annual Conference of the International Speech Communication Association. 2008. vol. 1. pp. 1313–1316.
8. Zhang C., Hansen J.H.L. Advancements in whisper-island detection using the linear predictive residual // 2010 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP). 2010. pp. 5170–5173.
9. Zhang C., Hansen J.H.L. Whisper-island detection based on unsupervised segmentation with entropy-based speech feature processing // IEEE Transactions on Audio Speech and Language Processing. 2011. vol. 19. no. 4. pp. 883–894.
10. Ghaffarzadegan S., Bořil H., Hansen J.H.L. Model and feature based compensation for whispered speech recognition // Fifteenth Annual Conference of the International Speech Communication Association. 2014. pp. 2420–2424.
11. Ghaffarzadegan S., Bořil H., Hansen J.H.L. Generative modeling of pseudo-whisper for robust whispered speech recognition // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2016. vol. 24. no. 10. pp. 1705–1720.
12. Grozdić Đ. et al. Comparison of cepstral normalization techniques in whispered speech recognition // Advances in Electrical and Computer Engineering. 2017. vol. 17. no. 1. pp. 21–26.
13. Grozdić Đ., Jovičić S.T. Whispered Speech Recognition Using Deep Denoising Autoencoder and Inverse Filtering // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2017. vol. 25. no. 12. pp. 2313–2322.
14. Marković B., Galić J., Mijić M. Application of Teager Energy Operator on Linear and Mel Scales for Whispered Speech Recognition // Archives of Acoustics. 2018. vol. 43. no. 1. pp. 3–9.
15. Swerdlin Y., Smith J., Wolfe J. The effect of whisper and creak vocal mechanisms on vocal tract resonances // The Journal of the Acoustical Society of America. 2010. vol. 127. no. 4. pp. 2590–2598.
16. Tartter V.C. Identifiability of vowels and speakers from whispered syllables // Perception & psychophysics. 1991. vol. 49. no. 4. pp. 365–372.
17. Fan X., Hansen J.H.L. Speaker identification with whispered speech based on modified LFCC parameters and feature mapping // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2009). 2009. pp. 4553–4556.
18. Hermansky H. Perceptual linear predictive (PLP) analysis of speech // The Journal of the Acoustical Society of America. 1990. vol. 87. no. 4. pp. 1738–1752.
19. Sklar B. Digital Communications: Fundamentals and Applications: 2nd edition // Prentice-Hall. 1988. 776 p.
20. Young S. et al. The HTK Book (for HTK Version 3.2). Cambridge University Engineering Department. 2006. 355 p. URL: http://speech.ee.ntu.edu.tw/homework/DSP_HW2-1/htkbook.pdf (accessed: 17.04.2018).
21. Hermansky H., Morgan N. RASTA processing of speech. IEEE transactions on speech and audio processing. 1994. vol. 2. no. 4. pp. 578–589. URL: https://labrosa.ee.columbia.edu/matlab/rastamat/ (дата обращения: 17.04.2018).
22. Galić J. et al. Speaker dependent recognition of whispered speech based on MLLR adaptation // Proc. of 11th Conference Digital Speech and Image Processing DOGS. 2017. pp. 29–32.
23. Marković B. G et al. Recognition of Normal and Whispered Speech Based on RASTA Filtering and DTW Algorithm // Proceedings of the Int. Conf. IcETRAN-2017. 2017. pp. AK1.8.2-4.
24. Marković B., Jovičić S., Galić J., Grozdić Đ. Recognition of the Multimodal Speech Based on the GFCC features // Proceedings of the Int. Conf. IcETRAN-2015. 2015. pp. AK1 1.3 1-5.
25. Galić J., Jovičić S., Grozdić Đ., Marković B. HTK-Based Recognition of Whispered Speech // International Conference on Speech and Computer (SPECOM-2014). 2014. pp. 251–258.
26. Jakovljević N. An application of sparse representation in Gaussian mixture models used in speech recognition task // Ph.D. thesis. University of Novi Sad. 2013.
27. Fan X., Hansen J.H.L. Speaker identification within whispered speech audio stream // IEEE Transactions on Audio, Speech and Language Processing. 2011. vol. 19. no. 5. pp. 1408–1421.
28. Zhang E., Zhang Y. F-Measure // Encyclopedia of Database Systems. 2009. pp. 1147.
2. Ito T., Takeda K., Itakura F. Analysis and recognition of whispered speech // Speech Communication. 2005. vol. 45. no. 2. pp. 129–152.
3. Ghaffarzadegan S., Boril H., Hansen J.H.L. UT-VOCAL EFFORT II: Analysis and constrained-lexicon recognition of whispered speech // 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2014. pp. 2544–2548.
4. Marković B., Jovic̆ić S.T., Galić J., Grozdić Đ. Whispered speech database: Design, processing and application // International Conference on Text, Speech and Dialogue. 2013. pp. 591–598.
5. Lee P.X. et al. A whispered Mandarin corpus for speech technology applications // Fifteenth Annual Conference of the International Speech Communication Association. 2014. pp. 1598–1602.
6. Kozierski P. et al. Kaldi toolkit in Polish whispery speech recognition // Przeglad Elektrotechniczny. 2016. vol. 92. pp. 301–304.
7. Fan X., Hansen J.H.L. Speaker identification for whispered speech based on frequency warping and score competition // Ninth Annual Conference of the International Speech Communication Association. 2008. vol. 1. pp. 1313–1316.
8. Zhang C., Hansen J.H.L. Advancements in whisper-island detection using the linear predictive residual // 2010 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP). 2010. pp. 5170–5173.
9. Zhang C., Hansen J.H.L. Whisper-island detection based on unsupervised segmentation with entropy-based speech feature processing // IEEE Transactions on Audio Speech and Language Processing. 2011. vol. 19. no. 4. pp. 883–894.
10. Ghaffarzadegan S., Bořil H., Hansen J.H.L. Model and feature based compensation for whispered speech recognition // Fifteenth Annual Conference of the International Speech Communication Association. 2014. pp. 2420–2424.
11. Ghaffarzadegan S., Bořil H., Hansen J.H.L. Generative modeling of pseudo-whisper for robust whispered speech recognition // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2016. vol. 24. no. 10. pp. 1705–1720.
12. Grozdić Đ. et al. Comparison of cepstral normalization techniques in whispered speech recognition // Advances in Electrical and Computer Engineering. 2017. vol. 17. no. 1. pp. 21–26.
13. Grozdić Đ., Jovičić S.T. Whispered Speech Recognition Using Deep Denoising Autoencoder and Inverse Filtering // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2017. vol. 25. no. 12. pp. 2313–2322.
14. Marković B., Galić J., Mijić M. Application of Teager Energy Operator on Linear and Mel Scales for Whispered Speech Recognition // Archives of Acoustics. 2018. vol. 43. no. 1. pp. 3–9.
15. Swerdlin Y., Smith J., Wolfe J. The effect of whisper and creak vocal mechanisms on vocal tract resonances // The Journal of the Acoustical Society of America. 2010. vol. 127. no. 4. pp. 2590–2598.
16. Tartter V.C. Identifiability of vowels and speakers from whispered syllables // Perception & psychophysics. 1991. vol. 49. no. 4. pp. 365–372.
17. Fan X., Hansen J.H.L. Speaker identification with whispered speech based on modified LFCC parameters and feature mapping // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2009). 2009. pp. 4553–4556.
18. Hermansky H. Perceptual linear predictive (PLP) analysis of speech // The Journal of the Acoustical Society of America. 1990. vol. 87. no. 4. pp. 1738–1752.
19. Sklar B. Digital Communications: Fundamentals and Applications: 2nd edition // Prentice-Hall. 1988. 776 p.
20. Young S. et al. The HTK Book (for HTK Version 3.2). Cambridge University Engineering Department. 2006. 355 p. URL: http://speech.ee.ntu.edu.tw/homework/DSP_HW2-1/htkbook.pdf (accessed: 17.04.2018).
21. Hermansky H., Morgan N. RASTA processing of speech. IEEE transactions on speech and audio processing. 1994. vol. 2. no. 4. pp. 578–589. URL: https://labrosa.ee.columbia.edu/matlab/rastamat/ (дата обращения: 17.04.2018).
22. Galić J. et al. Speaker dependent recognition of whispered speech based on MLLR adaptation // Proc. of 11th Conference Digital Speech and Image Processing DOGS. 2017. pp. 29–32.
23. Marković B. G et al. Recognition of Normal and Whispered Speech Based on RASTA Filtering and DTW Algorithm // Proceedings of the Int. Conf. IcETRAN-2017. 2017. pp. AK1.8.2-4.
24. Marković B., Jovičić S., Galić J., Grozdić Đ. Recognition of the Multimodal Speech Based on the GFCC features // Proceedings of the Int. Conf. IcETRAN-2015. 2015. pp. AK1 1.3 1-5.
25. Galić J., Jovičić S., Grozdić Đ., Marković B. HTK-Based Recognition of Whispered Speech // International Conference on Speech and Computer (SPECOM-2014). 2014. pp. 251–258.
26. Jakovljević N. An application of sparse representation in Gaussian mixture models used in speech recognition task // Ph.D. thesis. University of Novi Sad. 2013.
27. Fan X., Hansen J.H.L. Speaker identification within whispered speech audio stream // IEEE Transactions on Audio, Speech and Language Processing. 2011. vol. 19. no. 5. pp. 1408–1421.
28. Zhang E., Zhang Y. F-Measure // Encyclopedia of Database Systems. 2009. pp. 1147.
Опубликован
2018-06-01
Как цитировать
Галич, Й. Н., Йовичич, С. Т., Делич, В. Д., Маркович, Б. Р., Шумарац Павлович, Д. С., & ГроздичГ. T. (2018). Распознавание шепотной речи с использованием СММ и частотного преобразования по μ-закону. Труды СПИИРАН, 3(58), 27-52. https://doi.org/10.15622/sp.58.2
Раздел
Искусственный интеллект, инженерия данных и знаний
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).