Система синтеза речи по тексту с возможностью настройки на голос целевого диктора

Вадим Анатольевич Захарьев; Александр Александрович Петровский; Борис Мефодьевич Лобанов

doi:10.15622/sp.32.6

Вадим Анатольевич Захарьев аспирант кафедры электронных вычислительных средств Белорусский государственный университет информатики и радиоэлектроники
Александр Александрович Петровский заведующий кафедрой электронных вычислительных средств Белорусский государственный университет информатики и радиоэлектроники
Борис Мефодьевич Лобанов главный научный сотрудник лаборатории распознавания и синтеза речи Объединённый институт проблем информатики Национальной академии наук Республики Беларусь

DOI:

https://doi.org/10.15622/sp.32.6

Ключевые слова:

синтез речи по тексту, конверсия голоса, функция конверсии голоса

Аннотация

В статье представлена схема построения мультиголосового синтезатора речи, основанная на использовании синергетического эффекта от интеграции системы синтеза речи по тексту и конверсии голоса. Такая организация даёт возможность одновременно выполнять действия синтеза и модификации речевого сигнала на основе комплексного подхода, позволяя снизить количество ошибок и артефактов, которые влияют на качество речевого сигнала. Применение данного подхода обеспечивает реализацию функции настройки синтезатора речи на голос целевого диктора без существенных затрат трудоёмкости на обучение речевой базы данных, для добавления новых голосов.

Литература

1. Лобанов Б. М., Цирульник Л. И. Компьютерный синтез и клонирование речи // Минск: Белорусская наука, 2008. 344 с.
2. Abe M., Nakamura S., Shikano K. Voice conversion through vector quantization // Proc. of International Conference on Acoustics, Speech and Signal Processing. New York, 1988. pp. 655–658.
3. Valbret H., Moulines E., Tubach J.P. Voice transformation using PSOLA technique // Proc. of International Conference on Acoustics, Speech and Signal Processing. 1992. vol. 1. pp. 145–148.
4. Moulines E., Sagisaka Y. Voice conversion: State of the art and perspectives // Speech Communication. 1995. pp. 125–224.
5. Kain A., Macon M. W. Text-to-speech voice adaptation from sparse training data // Proc. of International Conference on Spoken Language Processing. 1998. pp. 2847 – 2850.
6. Sundermann D., Hoge H., Bonafonte A. Text-independent voice conversion based on unit selection // Proc. of International Conference on Acoustics, Speech and Signal Processing. 2006. vol. 1.
7. Azarov E, Petrovsky A.A, Lobanov B, Tsirulnik L. Text-to-speech system with acoustic processor based on the instantaneous harmonic analysis // SPECOM. 2009. pp. 414–418.
8. Kawahara H., Morise M. Technical foundations of tandem-straight, a speech analysis, modification and synthesis framework // SADHANA. Academy Proceedings in Engineering Sciences, 2011. pp. 713–722.
9. Kawahara H., Katayose H., Cheveigne A. Fixed Point Analysis of Frequency to Instantaneous Frequency Mapping for Accurate Estimation of F0 and Periodicity // Proc. Eurospeech'99. 1999. pp. 2781–2784.
10. Kawahara H., Masuda I., Cheveigne A. Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous–frequency–based F0 extraction // Speech Communication. 2004. pp. 187–207.
11. Arslan L. Speaker transformation algorithm using segmental codebooks // Speech Communication. 1999. vol. 28, no. 3. P. 211–226.
12. Narendranath M ., Murthy H., Rajendran S., Yegnanarayana N. Transformation of formants for voice conversion using artificial neural networks // Speech Communication. 1995. vol. 16, no. 2. pp. 207–216.
13. Рабинер Л. Р. Скрытые марковские модели и их применение в избранных приложениях при распознавании речи: Обзор // Труды института инженеров по электронике и радиоэлектронике. 1989. Т. 77, № 2. С. 86–120.
14. Азаров И. С., Петровский А. А. Система конверсии голоса в реальном масштабе времени с текстонезависимым обучением на основе гибридного параметрического описания речевых сигналов // Цифровая обработка сигналов. 2012. № 2. C. 15–23.
15. Анализаторы речевых и звуковых сигналов: методы, алгоритмы и практика (с MATLAB примерами) / под редакцией А. А. Петровского. // Минск: Бестпринт, 2009. 456 c.
16. Stylianou, Y., Cappe O., Moulines E. Statistical methods for voice quality transformation // Proc. of European Conference on Speech Communication and Technology. Madrid, 1995. pp. 447–450.
17. Павловец А.С., Лившиц М.З. , Личачев Д. С., Петровский А. А. Конверсия голоса с использованием модели сепарации речевого сигнала на компоненты “гармоники + шум” и переходные фреймы // Речевые технологии. 2008. №4. С. 37–50.
18. Stylianou Y., Cappe O. , Moulines E. Continuous probabilistic transform for voice conversion // Proc. of International Conference on Acoustics, Speech and Signal Processing. 1998. pp. 2451–2455.
19. Patterson D. A linguistic approach to pitch range modeling // PhD dissertation. Scotland: University of Edinburgh, 2000. 201 p.
20. Захарьев В.А., Петровский А.А. Конверсия просодических характеристик диктора на основе методов параметризации контура частоты основного тона. Доклады БГУИР // Минск, 2013. C. 39–46.
21. Hu Y., Loizou P.C. Evaluation of objective quality measures for speech enhancement // IEEE Transactions on Audio, Speech & Language Processing. 2008. vol. 16, no. 1. pp. 229–238.

Просмотры	1903
Скачивания	1181

Статьи

Система синтеза речи по тексту с возможностью настройки на голос целевого диктора

DOI:

Ключевые слова:

Аннотация

Литература

Опубликован

Статистика

Как цитировать

Выпуск

Раздел

Импакт-фактор

Разделы

Мы в сети

Обратная связь