Модель и программная реализация сингулярного оценивания частоты основного тона речевого сигнала
Ключевые слова:
оценивание частоты основного тона речевого сигнала, сингулярный спектральный анализ речи, модель, программная реализацияАннотация
В статье рассматривается сингулярная модель оценивания частоты основного тона речевого сигнала, а также ее программная реализация. Применение модели сингулярного оценивания частоты основного тона позволяет уменьшить вычислительную сложность алгоритмов анализа речевого сигнала путем аппроксимации края сингулярного спектра и обеспечить меньшее количество ошибок оценивания частоты основного тона за счет использования сингулярной модели вокализированного сегмента речи, учитывающей нестационарные параметры основного тона с помощью собственных чисел. Программная реализация модели используется в модуле расчетов комплекса программ речевой реабилитации онкологических больных после резекции гортани. Ключевые слова: оценивание частоты основного тона речевого сигнала, сингулярный спектральный анализ речи, модель, программная реализация.Литература
1. Голубинский А.Н. Оценка частоты основного тона речевого сигнала при априори неизвестных амплитудах и начальных фазах полигармонического несущего колебания // Вестник Воронежского института МВД России. 2010. № 3. С. 110–117.
2. Ронжин А.Л., Басов О.О. Определение степени алкогольной интоксикации человека на основе автоматического анализа речи // Вестник Московского университета МВД России. 2015. № 5. С. 216–220.
3. Meshcheryakov R.V., Balatskaya L.N., Choinzonov E.L., Chizevskaya S.Yu., Kostyuchenko E.U. Software for Assessing Voice Quality in Rehabilitation of Patients after Surgical Treatment of Cancer of Oral Cavity, Oropharynx and Upper Jaw // Proceedings of 15th International Conference SPECOM 2013. Pilsen. Czech Republic. 2013. pp 294–301.
4. Talkin D. A Robust Algorithm for Pitch Tracking (RAPT) // Speech Coding & Synthesis. 1995. pp-495–518.
5. Cheveigne A., Kawahara H. YIN, a fundamental frequency estimator for speech and music // Jour. Acoust. Soc. Am. 2002. vol. 111. no. 4. pp. 1917–1930.
6. Camacho A., Harris J.G. A sawtooth waveform inspired pitch estimator for speech and music // Journal Acoust. Soc. Am. 2008. vol. 123. no. 4. pp. 1638–1652.
7. Hermes D.J. Measurement of pitch by subharmonic summation // Jour. Acoust. Soc. Am. 1988. vol. 83. pp. 257–264.
8. Rabiner L.R., Schafer R.W. Digital processing of speech signals // Prentice Hall. 1978.
9. Azarov E., Vashkevich M., Petrovsky A. Instantaneous pitch estimation based on RAPT framework // Proceedings of the 20th European Signal Processing Conference (EUSIPCO). Bucharest. 2012. pp. 2787–2791.
10. Basov O.O., Ronzhin A.L., Budkov V.Yu. Optimization of Pitch Tracking and Quantization // Proc. SPECOM-2015. LNAI 9319. 2015. pp. 65–72.
11. Basov O.O., Ronzhin A.L., Budkov V.Yu., Saitov I.A. Method of Defining Multimodal Information Falsity for Smart Telecommunication Systems // Internet of Things, Smart Spaces, and Next Generation Networks and Systems. Springer. St. Petersburg. Russia. 2015. LNCS 9247. pp. 163–173.
12. Golyandina N., Zhigljavsky A. Singular Spectrum Analysis for time series // Springer Science & Business Media. 2013.
13. Tony F.C. An Improved Algorithm for Computing the Singular Value Decomposition // ACM Transaction on Mathematical Software. 1982. vol. 8. no. 1. pp. 72–83.
14. Азаров И.С., Вашкевич М.И., Лихачев Д.С., Петровский А.А. Изменение частоты основного тона речевого сигнала на основе гармонической модели с нестационарными параметрами // Труды СПИИРАН. 2014. Вып. 32. C.5–26.
15. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Нестационарные модели в обработке речевых сигналов // Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика и вибрации. Сб. трудов XVIII сессии Российского акустического общества. М.: ГЕОС. 2006. Т.3. С. 8–11.
16. Вольф Д.А. Спектральная теорема для решения частичной проблемы собственных чисел степенным методом в задачах сингулярного спектрального анализа речи // Системы управления и информационные технологии. 2014. №3.1(57). С. 129–135.
17. Агаев Р.П., Чеботарев П.Ю. Метод проекции в задаче о консенсусе и регуляризованный предел степеней стохастической матрицы //Автоматика и телемеханика. 2011. №. 12. С. 38–59.
18. Налимов В.В. Теория эксперимента // М.: Наука. 1971. 208 с.
19. Силич В.А., Комагоров В.П., Савельев А.О. Принципы разработки системы мониторинга и адаптивного управления разработкой «интеллектуального» месторождения на основе постоянно действующей геологотехнологической модели // Известия Томского политехнического университета. 2013. Т. 323. №. 5. С. 94–100.
20. Силич В.А. и др. Применение методологии OMSD для моделирования системы планирования геологотехнических мероприятий // Известия Томского политехнического университета. 2012. Т. 321. №. 5. С. 42–46.
21. Parlett B. N. The symmetric eigenvalue problem // Englewood Cliffs. NJ: Prentice-Hall. 1980. vol. 7.
22. Knizhnerman L., Simoncini V. A new investigation of the extended Krylov subspace method for matrix function evaluations // Numerical Linear Algebra with Applic. 2010. vol. 17. no. 4. pp. 615–638.
23. Boersma P. Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound // Proceedings of the institute of phonetic sciences. 1993. vol. 17. no. 1193. pp. 97–110.
24. Secrest B. G., Doddington G. R. An integrated pitch tracking algorithm for speech systems // Acoustics, Speech, and Signal Processing. IEEE International Conference on ICASSP'83. 1983. vol. 8. pp. 1352–1355.
25. Noll A. M. Cepstrum pitch determination // The journal of the acoustical society of America. 1967. vol. 41. no. 2. pp. 293–309.
26. Bagshaw P. C., Hiller S. M., Jack M. A. Enhanced pitch tracking and the processing of F0 contours for computer and intonation teaching // Proc. Europe-an Conf. on Speech Comm. (Eurospeech). 1993. pp. 1003–1006.
27. Medan Y., Yair E., Chazan D. Super resolution pitch determination of speech signals // IEEE Trans. Signal Process. 1991. vol. 39. pp. 40-48.
28. Sun X. A pitch determination algorithm based on subharmonic-to-harmonic ratio // The 6th International Conference of Spoken Language Processing. 2000. pp. 676–679.
29. Kawahara H., Katayose H., de Cheveigne A., Patterson R. D. Fixed Point Analysis of Frequency to Instantaneous Frequency Mapping for Accurate Esti-mation of F0 and Periodicity // Proc. EUROSPEECH. 1999. vol. 99. Issue 6. pp. 2781–2784.
30. Speech Filing System (SFS) // UCL Psychology & Language sciences Faculty of Brain Sciences. 2015. URL: http://www.phon.ucl.ac.uk/resource/sfs/ (дата обращения: 17.09.2015).
31. Praat // Phonetic Sciences. Amsterdam. 2015. URL: http://www.fon.hum.uva.nl/praat/download_win.html (дата обращения: 17.09.2015).
32. Straight // GitHub. 2015. URL: https://github.com/shuaijiang/STRAIGHT (дата обращения: 17.09.2015).
33. Aubio //Aubio. 2015. URL: http://aubio.org/download (дата обращения: 17.09.2015).
34. Festival // The Festival Speech Synthesis System. 2015. URL: http://www.cstr.ed.ac.uk/projects/festival/download.html (дата обращения: 17.09.2015).
35. SWIPE' pitch estimator. 2015. URL: https://github.com/kylebgorman/swipe (дата обращения: 17.09.2015).
36. Disordered Voice Database. 2015. URL: http:// http://kayelemetrics.com (дата обращения: 17.09.2015).
37. Keele Pitch Database. 2015. URL: http://www.icocla.it/keele.html (дата обращения: 20.03.2015).
38. Paul Bagshaw’s Database. 2015. URL: http://www.cstr.ed.ac.uk/research/projects/fda (дата обращения: 17.09.2015).
2. Ронжин А.Л., Басов О.О. Определение степени алкогольной интоксикации человека на основе автоматического анализа речи // Вестник Московского университета МВД России. 2015. № 5. С. 216–220.
3. Meshcheryakov R.V., Balatskaya L.N., Choinzonov E.L., Chizevskaya S.Yu., Kostyuchenko E.U. Software for Assessing Voice Quality in Rehabilitation of Patients after Surgical Treatment of Cancer of Oral Cavity, Oropharynx and Upper Jaw // Proceedings of 15th International Conference SPECOM 2013. Pilsen. Czech Republic. 2013. pp 294–301.
4. Talkin D. A Robust Algorithm for Pitch Tracking (RAPT) // Speech Coding & Synthesis. 1995. pp-495–518.
5. Cheveigne A., Kawahara H. YIN, a fundamental frequency estimator for speech and music // Jour. Acoust. Soc. Am. 2002. vol. 111. no. 4. pp. 1917–1930.
6. Camacho A., Harris J.G. A sawtooth waveform inspired pitch estimator for speech and music // Journal Acoust. Soc. Am. 2008. vol. 123. no. 4. pp. 1638–1652.
7. Hermes D.J. Measurement of pitch by subharmonic summation // Jour. Acoust. Soc. Am. 1988. vol. 83. pp. 257–264.
8. Rabiner L.R., Schafer R.W. Digital processing of speech signals // Prentice Hall. 1978.
9. Azarov E., Vashkevich M., Petrovsky A. Instantaneous pitch estimation based on RAPT framework // Proceedings of the 20th European Signal Processing Conference (EUSIPCO). Bucharest. 2012. pp. 2787–2791.
10. Basov O.O., Ronzhin A.L., Budkov V.Yu. Optimization of Pitch Tracking and Quantization // Proc. SPECOM-2015. LNAI 9319. 2015. pp. 65–72.
11. Basov O.O., Ronzhin A.L., Budkov V.Yu., Saitov I.A. Method of Defining Multimodal Information Falsity for Smart Telecommunication Systems // Internet of Things, Smart Spaces, and Next Generation Networks and Systems. Springer. St. Petersburg. Russia. 2015. LNCS 9247. pp. 163–173.
12. Golyandina N., Zhigljavsky A. Singular Spectrum Analysis for time series // Springer Science & Business Media. 2013.
13. Tony F.C. An Improved Algorithm for Computing the Singular Value Decomposition // ACM Transaction on Mathematical Software. 1982. vol. 8. no. 1. pp. 72–83.
14. Азаров И.С., Вашкевич М.И., Лихачев Д.С., Петровский А.А. Изменение частоты основного тона речевого сигнала на основе гармонической модели с нестационарными параметрами // Труды СПИИРАН. 2014. Вып. 32. C.5–26.
15. Бондаренко В.П., Коцубинский В.П., Мещеряков Р.В. Нестационарные модели в обработке речевых сигналов // Акустика речи. Медицинская и биологическая акустика. Архитектурная и строительная акустика и вибрации. Сб. трудов XVIII сессии Российского акустического общества. М.: ГЕОС. 2006. Т.3. С. 8–11.
16. Вольф Д.А. Спектральная теорема для решения частичной проблемы собственных чисел степенным методом в задачах сингулярного спектрального анализа речи // Системы управления и информационные технологии. 2014. №3.1(57). С. 129–135.
17. Агаев Р.П., Чеботарев П.Ю. Метод проекции в задаче о консенсусе и регуляризованный предел степеней стохастической матрицы //Автоматика и телемеханика. 2011. №. 12. С. 38–59.
18. Налимов В.В. Теория эксперимента // М.: Наука. 1971. 208 с.
19. Силич В.А., Комагоров В.П., Савельев А.О. Принципы разработки системы мониторинга и адаптивного управления разработкой «интеллектуального» месторождения на основе постоянно действующей геологотехнологической модели // Известия Томского политехнического университета. 2013. Т. 323. №. 5. С. 94–100.
20. Силич В.А. и др. Применение методологии OMSD для моделирования системы планирования геологотехнических мероприятий // Известия Томского политехнического университета. 2012. Т. 321. №. 5. С. 42–46.
21. Parlett B. N. The symmetric eigenvalue problem // Englewood Cliffs. NJ: Prentice-Hall. 1980. vol. 7.
22. Knizhnerman L., Simoncini V. A new investigation of the extended Krylov subspace method for matrix function evaluations // Numerical Linear Algebra with Applic. 2010. vol. 17. no. 4. pp. 615–638.
23. Boersma P. Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound // Proceedings of the institute of phonetic sciences. 1993. vol. 17. no. 1193. pp. 97–110.
24. Secrest B. G., Doddington G. R. An integrated pitch tracking algorithm for speech systems // Acoustics, Speech, and Signal Processing. IEEE International Conference on ICASSP'83. 1983. vol. 8. pp. 1352–1355.
25. Noll A. M. Cepstrum pitch determination // The journal of the acoustical society of America. 1967. vol. 41. no. 2. pp. 293–309.
26. Bagshaw P. C., Hiller S. M., Jack M. A. Enhanced pitch tracking and the processing of F0 contours for computer and intonation teaching // Proc. Europe-an Conf. on Speech Comm. (Eurospeech). 1993. pp. 1003–1006.
27. Medan Y., Yair E., Chazan D. Super resolution pitch determination of speech signals // IEEE Trans. Signal Process. 1991. vol. 39. pp. 40-48.
28. Sun X. A pitch determination algorithm based on subharmonic-to-harmonic ratio // The 6th International Conference of Spoken Language Processing. 2000. pp. 676–679.
29. Kawahara H., Katayose H., de Cheveigne A., Patterson R. D. Fixed Point Analysis of Frequency to Instantaneous Frequency Mapping for Accurate Esti-mation of F0 and Periodicity // Proc. EUROSPEECH. 1999. vol. 99. Issue 6. pp. 2781–2784.
30. Speech Filing System (SFS) // UCL Psychology & Language sciences Faculty of Brain Sciences. 2015. URL: http://www.phon.ucl.ac.uk/resource/sfs/ (дата обращения: 17.09.2015).
31. Praat // Phonetic Sciences. Amsterdam. 2015. URL: http://www.fon.hum.uva.nl/praat/download_win.html (дата обращения: 17.09.2015).
32. Straight // GitHub. 2015. URL: https://github.com/shuaijiang/STRAIGHT (дата обращения: 17.09.2015).
33. Aubio //Aubio. 2015. URL: http://aubio.org/download (дата обращения: 17.09.2015).
34. Festival // The Festival Speech Synthesis System. 2015. URL: http://www.cstr.ed.ac.uk/projects/festival/download.html (дата обращения: 17.09.2015).
35. SWIPE' pitch estimator. 2015. URL: https://github.com/kylebgorman/swipe (дата обращения: 17.09.2015).
36. Disordered Voice Database. 2015. URL: http:// http://kayelemetrics.com (дата обращения: 17.09.2015).
37. Keele Pitch Database. 2015. URL: http://www.icocla.it/keele.html (дата обращения: 20.03.2015).
38. Paul Bagshaw’s Database. 2015. URL: http://www.cstr.ed.ac.uk/research/projects/fda (дата обращения: 17.09.2015).
Опубликован
2015-11-25
Как цитировать
Вольф, Д. А., & Мещеряков, Р. В. (2015). Модель и программная реализация сингулярного оценивания частоты основного тона речевого сигнала. Труды СПИИРАН, 6(43), 191-209. https://doi.org/10.15622/sp.43.11
Раздел
Методы управления и обработки информации
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).