Обучение просодической модели по данным в нейросетевом синтезе речи
Ключевые слова:
американский английский, просодическая модель, синтез речи, ToBIАннотация
Естественность — один из важнейших аспектов синтезированной речи. Современ-ные параметрические синтезаторы речи требуют обучения на большом количестве аннотированных речевых данных, чтобы иметь возможность передавать просоди-ческие элементы, такие как тоническое ударение и фразовый граничный тон. Наиболее часто используемый инструментарий для просодической аннотации речи в американском английском языке — Индексы Тонов и Просодических швов — ToBI, которые также были адаптированы для использования на других языках. В настоящей статье представлены некоторые недостатки ToBI в синтезе речи на аме-риканском английском языке, которые связаны с отсутствием тегов, специально предназначенных для обозначения различий в уровне просодии (акцента), связан-ной с конкретной частью предложения. В данном исследовании предлагается вве-дение набора тегов, предназначенных для точного моделирования степени просо-дии, а именно определенная составляющая предложения может быть особо под-черкнута, если она является намеченным фокусом высказывания или ее роль пре-уменьшена, как это обычно бывает с фразами, сообщающими о прямой речи или комментариями. С помощью нескольких аудирований было продемонстрировано, что изучение просодической модели на основе данных имеет определенные преимущества пе-ред подходами, пытающимися использовать существующие теги ToBI для переда-чи степени акцента в синтезированной речи: речь, синтезированная нейронной сетью, обученной на данных с тегами уровня просодии, представляется более естественной, и слушатели могут с большим успехом отыскать просодическую составляющую предложения.Литература
1. Dall R., Yamagishi J., King S. Rating Naturalness in Speech Synthesis: The Effect of Style and Expectation // Proceedings of Speech Prosody. 2014. 5 p.
2. King S., Karaiskos V. The Blizzard Challenge 2016 // Blizzard Challenge Workshop. 2016. 17 p.
3. King S., Wihlborg L., Guo W. The Blizzard Challenge 2017 // Blizzard Challenge Workshop. 2017. 17 p.
4. Tatham M., Morton K. Developments in Speech Synthesis // John Wiley & Sons. 2005. 280 p.
5. Sluijter A. et al. Evaluation of speech synthesis systems for Dutch in telecommunication applications // Proceedings of the 3rd ESCA/COCOSDA Workshop (ETRW) on Speech Synthesis. 1998. 6 p.
6. Berg M. Modelling of Natural Dialogues in the Context of Speech-based Information and Control Systems // PhD Thesis. University of Kiel. 2014. 250 p.
7. Trouvain J. Laughing, Breathing, Clicking - The Prosody of Nonverbal Vocalisations // Proceedings of Speech Prosody. 2014. pp. 598–602.
8. Dall R. et al. Investigating Automatic & Human Filled Pause Insertion for Speech Synthesis // Proceedings of the Annual Conference of the ISCA. 2014. 5 p.
9. Székely É., Mendelson J., Gustafson J. Synthesising Uncertainty: The Interplay of Vocal Effort and Hesitation Disfluencies // 18th Annual Conference of the International Speech Communication Association (INTERSPEECH 2017). 2017. vol. 2017. pp. 804–808.
10. Beckman M.E. Stress and Non-Stress Accent // Foris Publications. 1986. 241 p.
11. Silverman K. et al. ToBI: A standard for labeling English prosody // Proceedings of the 2nd International Conference on Spoken Language Processing. 1992. 4 p.
12. Beckman M.E., Hirschberg J., Shattuck-Hufnagel S. The original ToBI system and the evolution of the ToBI framework // Prosodic typology: The phonology of intonation and phrasing. 2006. 37 p.
13. Black A.W., Hunt A.J. Generating F0 contours from ToBI labels using linear regression // Proceedings of ICSLP. 1996. 4 p.
14. Wightman C.W. ToBI or not ToBI // Proceedings of the International Conference on Speech Prosody 2002. 2002. 5 p.
15. Syrdal A., Hirschberg J., McGory J., Beckman M. Automatic ToBI Prediction and Alignment to Speed Manual Labeling of Prosody // Speech communication. 2001. vol. 33. no. 1-2. pp. 135–151.
16. Syrdal A., McGorg J. Inter-Transcriber Reliability of ToBI Prosodic Labeling // Proceedings of the International Conference on Spoken Language Processing (ICSLP). 2000. 4 p.
17. Niemann H. et al. Prosodic processing and its use in Verbmobil // 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP-97). 1997. vol. 1. pp. 75–78.
18. Pierrehumbert J., Hirschberg J.B. The meaning of intonational contours in the interpretation of discourse // Intentions in communication. 1990. pp. 271–311.
19. Hamza W. et al. The IBM Expressive Speech Synthesis System // Proceedings of the Eighth International Conference on Spoken Language Processing (ISCLP). 2004. 4 p.
20. Ze H., Senior A., Schuster M. Statistical parametric speech synthesis using deep neural networks // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2013. pp. 7962–7966.
21. Delić T., Sečujski M., Suzić S. A review of Serbian parametric speech synthesis based on deep neural networks // Telfor Journal. 2017. vol. 9. no. 1. pp. 32–37.
22. Wu Z., Watts O., King S. Merlin: An Open Source Neural Network Speech Synthe¬sis System // Proceedings of the 9th ISCA Speech Synthesis Workshop. 2016. 6 p.
23. Seide F., Agarwal A. Cntk: Microsoft's open-source deep-learning toolkit // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016. pp. 2135–2135.
24. Morise M., Yokomori F., Ozawa K. WORLD: a vocoder-based high-quality speech synthesis system for real-time applications // IEICE Transactions on Information and Systems. 2016. vol. 99. no. 7. pp. 1877–1884.
25. Tokuda K. et al. Speech parameter generation algorithms for HMM-based speech synthesis // Proceedings of the 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP'00). 2000. vol. 3. pp. 1315–1318.
26. Gođevac S. Transcribing Serbo-Croatian Intonation // Prosodic Typology: The Phono¬logy of Intonation and Phrasing. 2005. 26 p.
2. King S., Karaiskos V. The Blizzard Challenge 2016 // Blizzard Challenge Workshop. 2016. 17 p.
3. King S., Wihlborg L., Guo W. The Blizzard Challenge 2017 // Blizzard Challenge Workshop. 2017. 17 p.
4. Tatham M., Morton K. Developments in Speech Synthesis // John Wiley & Sons. 2005. 280 p.
5. Sluijter A. et al. Evaluation of speech synthesis systems for Dutch in telecommunication applications // Proceedings of the 3rd ESCA/COCOSDA Workshop (ETRW) on Speech Synthesis. 1998. 6 p.
6. Berg M. Modelling of Natural Dialogues in the Context of Speech-based Information and Control Systems // PhD Thesis. University of Kiel. 2014. 250 p.
7. Trouvain J. Laughing, Breathing, Clicking - The Prosody of Nonverbal Vocalisations // Proceedings of Speech Prosody. 2014. pp. 598–602.
8. Dall R. et al. Investigating Automatic & Human Filled Pause Insertion for Speech Synthesis // Proceedings of the Annual Conference of the ISCA. 2014. 5 p.
9. Székely É., Mendelson J., Gustafson J. Synthesising Uncertainty: The Interplay of Vocal Effort and Hesitation Disfluencies // 18th Annual Conference of the International Speech Communication Association (INTERSPEECH 2017). 2017. vol. 2017. pp. 804–808.
10. Beckman M.E. Stress and Non-Stress Accent // Foris Publications. 1986. 241 p.
11. Silverman K. et al. ToBI: A standard for labeling English prosody // Proceedings of the 2nd International Conference on Spoken Language Processing. 1992. 4 p.
12. Beckman M.E., Hirschberg J., Shattuck-Hufnagel S. The original ToBI system and the evolution of the ToBI framework // Prosodic typology: The phonology of intonation and phrasing. 2006. 37 p.
13. Black A.W., Hunt A.J. Generating F0 contours from ToBI labels using linear regression // Proceedings of ICSLP. 1996. 4 p.
14. Wightman C.W. ToBI or not ToBI // Proceedings of the International Conference on Speech Prosody 2002. 2002. 5 p.
15. Syrdal A., Hirschberg J., McGory J., Beckman M. Automatic ToBI Prediction and Alignment to Speed Manual Labeling of Prosody // Speech communication. 2001. vol. 33. no. 1-2. pp. 135–151.
16. Syrdal A., McGorg J. Inter-Transcriber Reliability of ToBI Prosodic Labeling // Proceedings of the International Conference on Spoken Language Processing (ICSLP). 2000. 4 p.
17. Niemann H. et al. Prosodic processing and its use in Verbmobil // 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP-97). 1997. vol. 1. pp. 75–78.
18. Pierrehumbert J., Hirschberg J.B. The meaning of intonational contours in the interpretation of discourse // Intentions in communication. 1990. pp. 271–311.
19. Hamza W. et al. The IBM Expressive Speech Synthesis System // Proceedings of the Eighth International Conference on Spoken Language Processing (ISCLP). 2004. 4 p.
20. Ze H., Senior A., Schuster M. Statistical parametric speech synthesis using deep neural networks // 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2013. pp. 7962–7966.
21. Delić T., Sečujski M., Suzić S. A review of Serbian parametric speech synthesis based on deep neural networks // Telfor Journal. 2017. vol. 9. no. 1. pp. 32–37.
22. Wu Z., Watts O., King S. Merlin: An Open Source Neural Network Speech Synthe¬sis System // Proceedings of the 9th ISCA Speech Synthesis Workshop. 2016. 6 p.
23. Seide F., Agarwal A. Cntk: Microsoft's open-source deep-learning toolkit // Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016. pp. 2135–2135.
24. Morise M., Yokomori F., Ozawa K. WORLD: a vocoder-based high-quality speech synthesis system for real-time applications // IEICE Transactions on Information and Systems. 2016. vol. 99. no. 7. pp. 1877–1884.
25. Tokuda K. et al. Speech parameter generation algorithms for HMM-based speech synthesis // Proceedings of the 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP'00). 2000. vol. 3. pp. 1315–1318.
26. Gođevac S. Transcribing Serbo-Croatian Intonation // Prosodic Typology: The Phono¬logy of Intonation and Phrasing. 2005. 26 p.
Опубликован
2018-08-01
Как цитировать
Сечуйски, М., Острогонац, С., Сузич, С., & Пекар, Д. (2018). Обучение просодической модели по данным в нейросетевом синтезе речи. Труды СПИИРАН, 4(59), 192-215. https://doi.org/10.15622/sp.59.8
Раздел
Искусственный интеллект, инженерия данных и знаний
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).