Метод построения формантных картин для исследования фонетических характеристик гласных
Ключевые слова:
фонетика, фонология, акустический анализ речевого сигнала, формантные характеристики гласных, характеристики огубленностиАннотация
Представлены результаты применения метода получения формантных составляющих гласных фонем. Проведен обзор существующих направлений разработки методов получения формантных характеристик гласных для разных языков с момента возникновения метода и до недавнего времени. Также проведен обзор степени использования методов оценки формантных картин в речевых технологиях и при обработке естественного языка. На массиве корпуса профессионального чтения CORPRES были получены данные по формантным составляющим для 351929 реализаций гласных фонем на материале 8 дикторов. Полученные данные сгруппированы в соответствии с обозначениями в реальной транскрипции, которую проводили сегментаторы-фонетисты в рамках работы по разметке корпуса. На формантных плоскостях представлено распределение ударных аллофонов гласных для всех дикторов. На примере одного диктора-мужчины представлена вариативность формантных характеристик в корпусе для предударных и заударных аллофонов. Также представлены результаты, свидетельствующие о различиях огубленных безударных /i/ и /a/, которые воспринимаются как /u/ как наивными носителями языка, так и фонетистами-экспертами. В качестве экспериментального материала использовались записи чтения одним диктором мужского пола специально подобранных предложений, которые учитывали различные лингвистические факторы. Результаты анализа показали, что высока вероятность огубленности безударного неогубленного гласного, если в следующем слоге есть безударный огубленный гласный. Анализ данных формантных составляющих этих гласных показал, что значения первой форманты этих гласных близки к значениям у ударного гласного /u/ для этого диктора. Артикуляторно подъем этих гласных соответствует подъему /u/. Значения второй форманты у гласных [u], которые должны были реализовываться как [i] и [a], различаются. Они в большей степени продвинуты вперед по сравнению с ударным /u/.
Литература
2. Фант Г. Акустическая теория речеобразования // М.: Наука. 1964. 284 c.
3. Chaari S., Ouni K., Ellouze N. Wavelet ridge track interpretation in terms of for-mants // Ninth International Conference on Spoken Language Processing. 2006. pp. 1017–1020.
4. Özbek I.Y., Demirekler M. Tracking of visible vocal tract resonances (VVTR) based on kalman filtering // Ninth International Conference on Spoken Language Processing. 2006. 4 p.
5. Mellahi T., Hamdi R. LPC-based formant enhancement method in Kalman filtering for speech enhancement // AEU-International Journal of Electronics and Communications. 2015. vol. 69. no. 2. pp. 545–554.
6. Weruaga L., Al-Khayat A. All-pole model estimation of vocal tract on the frequency domain // Ninth International Conference on Spoken Language Processing. 2006. pp. 1001–1004.
7. Magi C., Bäckström T., Alku P. Stabilised weighted linear prediction-a robust all-pole method for speech processing // Eight Annual Conference of the International Speech Communication Association. 2007. pp. 522–525.
8. Kendall T., Vaughn C. Measurement variability in vowel formant estimation: а simu-lation experiment // Proceedings of The Scottish Consortium for ICPhS 2015. 2015. 5 p.
9. Weenink D. Improved formant frequency measurements of shortsegments // The Scottish Consortium for ICPhS 2015. 2015. 4 p.
10. Ramírez M.A. Hybrid Autoregressive Resonance Estimation and Density Mixture Formant Tracking Model // IEEE Access. 2018. vol. 6. pp. 30217–30224.
11. Arai T. Sliding Vocal-tract Model and its Application for Vowel Production // Tenth Annual Conference of the International Speech Communication Association. 2009. pp. 72–75.
12. Ghosh P.K. et al. Estimation of articulatory gesture patterns from speech acoustics // Tenth Annual Conference of the International Speech Communication Association. 2009. pp. 2803–2806.
13. Fang Q., Nishikido A., Dang J. Feedforward Control of A 3D Physiological Articula-tory Model for Vowel Production // Tsinghua Science and Technology. 2009. vol. 14. no. 5. pp. 617–622.
14. Arai T. Simple Physical Models of the Vocal Tract for Education in Speech Science // Tenth Annual Conference of the International Speech Communication Association. 2009. pp. 756–759.
15. Lu X.B., Thorpe W., Foster K., Hunter P. From experiments to articulatory motion – A three dimensional talking head model // Tenth Annual Conference of the International Speech Communication Association. 2009. pp. 64–67.
16. Lammert A.C., Narayanan S.S. On Short-Time Estimation of Vocal Tract Length from Formant Frequencies // PloS one. 2015. vol. 10(7). pp. e0132193.
17. Fant G., Liljencrants J., Lin Q. A four-parameter model of Glottal Flow // STL-QPSR 1985. vol. 4. no. 1985. pp. 1–13.
18. Fant G. The voice source in the connected speech // Speech Communication. 1997. vol. 22. no. 2-3. pp. 125–139.
19. Murphy P.J. Relationship between Harmonic Amplitudes and Spectral Zeros and Glottal Open Quotient // International Conference on Phonetic Science (ICPhS). 2007. pp. 889–892.
20. Uezu Y., Kaburagi T. Analysis of voice register transition focused on the relationship between pitch and formant frequency // The Scottish Consortium for ICPhS. 2015. 5 p.
21. Евдокимова В.В. Системный подход к определению параметров речевого трак-та // Вестник Санкт-Петербургского университета. Язык и литература. 2007. № 2-II. pp. 144–148.
22. Mokhtari P., Tanaka K.A. Corpus of Japanese Vowel Formant Patterns // Bulletin of The Electrotechnical Laboratory (ETL). 2000. vol. 64. pp. 57–66.
23. Evanini K., Isard S., Liberman M. Automatic formant extraction for sociolinguistic analysis of large corpora // Tenth Annual Conference of the International Speech Communication Association. 2009. pp. 1655–1658.
24. Barreda S. Investigating the use of formant frequencies in listener judgments of speaker size // Journal of Phonetics. 2016. vol. 55. pp. 1–18.
25. Macari A.T. et al. Correlation Between the Position of the Hyoid Bone on Lateral Cephalographs and Formant Frequencies // Journal of voice. 2016. vol. 30. no. 6. pp. 757.
26. Hoedl P. Defying gravity: formant frequencies of English vowels produced in upright and supine body position // The Scottish Consortium for ICPhS 2015. 2015. 5 p.
27. Eichhorn J.T., Kent R.D., Austin D., Vorperian H.K. Effects of Aging on Vocal Fun-damental Frequency and Vowel Formants in Men and Women // Journal of Voice. 2018. vol. 32. no. 5. pp. 644. e1-644. e9.
28. Zuo D., Mok P.P.K. Formant dynamics of bilingual identical twins // Journal of Pho-netics. 2015. vol. 52. pp. 1–12
29. Heeren W.F.L. Can formant shifts and effort cues enhance boundary tone perception in whispered speech? // The Scottish Consortium for ICPhS 2015. 2015. 5 p.
30. Zhao Y., Lin W. Study of the formant and duration in Chinese whispered vowel speech // Applied Acoustics. 2016. vol. 114. pp. 240–243.
31. Franco-Pedroso J., Gonzalez-Rodriguez J. Linguistically-constrained formant-based i-vectors for automatic speaker recognition // Speech Communication. 2016. vol. 76. pp. 61–81.
32. Skarnitzl R., Vaňková J. Speaker discrimination using formant trajectories from case-work recordings: can LDA do it? // The Scottish Consortium for ICPhS 2015. 2015. 5 p.
33. Daqrouq K., Tutunji T.A. Speaker identification using vowels features through a com-bined method of formants, wavelets, and neural network classifiers // Applied Soft Computing. 2015. vol. 27. pp. 231–239.
34. Fisher J.M., Dick F.K., Levy D.F., Wilson S.M. Neural representation of vowel for-mants in tonotopic auditory cortex // NeuroImage. 2018. vol. 178. pp. 574–582.
35. Skrelin P.A. et al. A Fully Annotated Corpus of Russian Speech // Proceedings of the International Conference on Language Resources and Evaluation. 2010. pp. 109–112.
36. Евдокимова В.В Вариативность формантной структуры гласного в разных видах речи // Первый междисциплинарный семинар «Анализ разговорной речи» (АРЗ-2007). 2007. С. 49–54.
37. Kocharov D., Evdokimova V., Evgrafova K., Morskovatykh M. Labialization of un-stressed vowels in Russian: phonetic and perceptual evidence // International Confer-ence on Speech and Computer. 2018. pp. 301–310.
Опубликован
Как цитировать
Раздел
Copyright (c) Вера Вячеславовна Евдокимова, Даниил Александрович Кочаров, Павел Анатольевич Скрелин
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).