Система синтеза речи по тексту с возможностью настройки на голос целевого диктора
Ключевые слова:
синтез речи по тексту, конверсия голоса, функция конверсии голосаАннотация
В статье представлена схема построения мультиголосового синтезатора речи, основанная на использовании синергетического эффекта от интеграции системы синтеза речи по тексту и конверсии голоса. Такая организация даёт возможность одновременно выполнять действия синтеза и модификации речевого сигнала на основе комплексного подхода, позволяя снизить количество ошибок и артефактов, которые влияют на качество речевого сигнала. Применение данного подхода обеспечивает реализацию функции настройки синтезатора речи на голос целевого диктора без существенных затрат трудоёмкости на обучение речевой базы данных, для добавления новых голосов.Литература
1. Лобанов Б. М., Цирульник Л. И. Компьютерный синтез и клонирование речи // Минск: Белорусская наука, 2008. 344 с.
2. Abe M., Nakamura S., Shikano K. Voice conversion through vector quantization // Proc. of International Conference on Acoustics, Speech and Signal Processing. New York, 1988. pp. 655–658.
3. Valbret H., Moulines E., Tubach J.P. Voice transformation using PSOLA technique // Proc. of International Conference on Acoustics, Speech and Signal Processing. 1992. vol. 1. pp. 145–148.
4. Moulines E., Sagisaka Y. Voice conversion: State of the art and perspectives // Speech Communication. 1995. pp. 125–224.
5. Kain A., Macon M. W. Text-to-speech voice adaptation from sparse training data // Proc. of International Conference on Spoken Language Processing. 1998. pp. 2847 – 2850.
6. Sundermann D., Hoge H., Bonafonte A. Text-independent voice conversion based on unit selection // Proc. of International Conference on Acoustics, Speech and Signal Processing. 2006. vol. 1.
7. Azarov E, Petrovsky A.A, Lobanov B, Tsirulnik L. Text-to-speech system with acoustic processor based on the instantaneous harmonic analysis // SPECOM. 2009. pp. 414–418.
8. Kawahara H., Morise M. Technical foundations of tandem-straight, a speech analysis, modification and synthesis framework // SADHANA. Academy Proceedings in Engineering Sciences, 2011. pp. 713–722.
9. Kawahara H., Katayose H., Cheveigne A. Fixed Point Analysis of Frequency to Instantaneous Frequency Mapping for Accurate Estimation of F0 and Periodicity // Proc. Eurospeech'99. 1999. pp. 2781–2784.
10. Kawahara H., Masuda I., Cheveigne A. Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous–frequency–based F0 extraction // Speech Communication. 2004. pp. 187–207.
11. Arslan L. Speaker transformation algorithm using segmental codebooks // Speech Communication. 1999. vol. 28, no. 3. P. 211–226.
12. Narendranath M ., Murthy H., Rajendran S., Yegnanarayana N. Transformation of formants for voice conversion using artificial neural networks // Speech Communication. 1995. vol. 16, no. 2. pp. 207–216.
13. Рабинер Л. Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор // Труды института инженеров по электронике и радиоэлектронике. 1989. Т. 77, № 2. С. 86–120.
14. Азаров И. С., Петровский А. А. Система конверсии голоса в реальном масштабе времени с текстонезависимым обучением на основе гибридного параметрического описания речевых сигналов // Цифровая обработка сигналов. 2012. № 2. C. 15–23.
15. Анализаторы речевых и звуковых сигналов: методы, алгоритмы и практика (с MATLAB примерами) / под редакцией А. А. Петровского. // Минск: Бестпринт, 2009. 456 c.
16. Stylianou, Y., Cappe O., Moulines E. Statistical methods for voice quality transformation // Proc. of European Conference on Speech Communication and Technology. Madrid, 1995. pp. 447–450.
17. Павловец А.С., Лившиц М.З. , Личачев Д. С., Петровский А. А. Конверсия голоса с использованием модели сепарации речевого сигнала на компоненты “гармоники + шум” и переходные фреймы // Речевые технологии. 2008. №4. С. 37–50.
18. Stylianou Y., Cappe O. , Moulines E. Continuous probabilistic transform for voice conversion // Proc. of International Conference on Acoustics, Speech and Signal Processing. 1998. pp. 2451–2455.
19. Patterson D. A linguistic approach to pitch range modeling // PhD dissertation. Scotland: University of Edinburgh, 2000. 201 p.
20. Захарьев В.А., Петровский А.А. Конверсия просодических характеристик диктора на основе методов параметризации контура частоты основного тона. Доклады БГУИР // Минск, 2013. C. 39–46.
21. Hu Y., Loizou P.C. Evaluation of objective quality measures for speech enhancement // IEEE Transactions on Audio, Speech & Language Processing. 2008. vol. 16, no. 1. pp. 229–238.
2. Abe M., Nakamura S., Shikano K. Voice conversion through vector quantization // Proc. of International Conference on Acoustics, Speech and Signal Processing. New York, 1988. pp. 655–658.
3. Valbret H., Moulines E., Tubach J.P. Voice transformation using PSOLA technique // Proc. of International Conference on Acoustics, Speech and Signal Processing. 1992. vol. 1. pp. 145–148.
4. Moulines E., Sagisaka Y. Voice conversion: State of the art and perspectives // Speech Communication. 1995. pp. 125–224.
5. Kain A., Macon M. W. Text-to-speech voice adaptation from sparse training data // Proc. of International Conference on Spoken Language Processing. 1998. pp. 2847 – 2850.
6. Sundermann D., Hoge H., Bonafonte A. Text-independent voice conversion based on unit selection // Proc. of International Conference on Acoustics, Speech and Signal Processing. 2006. vol. 1.
7. Azarov E, Petrovsky A.A, Lobanov B, Tsirulnik L. Text-to-speech system with acoustic processor based on the instantaneous harmonic analysis // SPECOM. 2009. pp. 414–418.
8. Kawahara H., Morise M. Technical foundations of tandem-straight, a speech analysis, modification and synthesis framework // SADHANA. Academy Proceedings in Engineering Sciences, 2011. pp. 713–722.
9. Kawahara H., Katayose H., Cheveigne A. Fixed Point Analysis of Frequency to Instantaneous Frequency Mapping for Accurate Estimation of F0 and Periodicity // Proc. Eurospeech'99. 1999. pp. 2781–2784.
10. Kawahara H., Masuda I., Cheveigne A. Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous–frequency–based F0 extraction // Speech Communication. 2004. pp. 187–207.
11. Arslan L. Speaker transformation algorithm using segmental codebooks // Speech Communication. 1999. vol. 28, no. 3. P. 211–226.
12. Narendranath M ., Murthy H., Rajendran S., Yegnanarayana N. Transformation of formants for voice conversion using artificial neural networks // Speech Communication. 1995. vol. 16, no. 2. pp. 207–216.
13. Рабинер Л. Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор // Труды института инженеров по электронике и радиоэлектронике. 1989. Т. 77, № 2. С. 86–120.
14. Азаров И. С., Петровский А. А. Система конверсии голоса в реальном масштабе времени с текстонезависимым обучением на основе гибридного параметрического описания речевых сигналов // Цифровая обработка сигналов. 2012. № 2. C. 15–23.
15. Анализаторы речевых и звуковых сигналов: методы, алгоритмы и практика (с MATLAB примерами) / под редакцией А. А. Петровского. // Минск: Бестпринт, 2009. 456 c.
16. Stylianou, Y., Cappe O., Moulines E. Statistical methods for voice quality transformation // Proc. of European Conference on Speech Communication and Technology. Madrid, 1995. pp. 447–450.
17. Павловец А.С., Лившиц М.З. , Личачев Д. С., Петровский А. А. Конверсия голоса с использованием модели сепарации речевого сигнала на компоненты “гармоники + шум” и переходные фреймы // Речевые технологии. 2008. №4. С. 37–50.
18. Stylianou Y., Cappe O. , Moulines E. Continuous probabilistic transform for voice conversion // Proc. of International Conference on Acoustics, Speech and Signal Processing. 1998. pp. 2451–2455.
19. Patterson D. A linguistic approach to pitch range modeling // PhD dissertation. Scotland: University of Edinburgh, 2000. 201 p.
20. Захарьев В.А., Петровский А.А. Конверсия просодических характеристик диктора на основе методов параметризации контура частоты основного тона. Доклады БГУИР // Минск, 2013. C. 39–46.
21. Hu Y., Loizou P.C. Evaluation of objective quality measures for speech enhancement // IEEE Transactions on Audio, Speech & Language Processing. 2008. vol. 16, no. 1. pp. 229–238.
Опубликован
2014-04-09
Как цитировать
Захарьев, В. А., Петровский, А. А., & Лобанов, Б. М. (2014). Система синтеза речи по тексту с возможностью настройки на голос целевого диктора. Труды СПИИРАН, 1(32), 82-98. https://doi.org/10.15622/sp.32.6
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).