Формирование персональной модели голоса диктора с универсальным фонетическим пространством признаков на основе искусственной нейронной сети
Ключевые слова:
конверсия голоса, синтез речевого сигнала, искусственная нейронная сетьАннотация
В работе исследуется возможность формирования модели голоса заданного диктора на основе записей образцов его голоса с транскрипцией. В работе предлагается практический способ построения голосовой модели и результаты экспериментов ее применения к задаче конверсии голоса. Модель использует искусственную нейронную сеть, устроенную по принципу автоматического кодера, устанавливающую соответствие между пространством речевых параметров и пространством возможных фонетических состояний, унифицированным для произвольного голоса.Литература
1. Watts O., Stan A., Clark R., Mamiya Y., Giurgiu M., Yamagishi J., King S. Unsupervised and lightly supervised learning for rapid construction of TTS systems in multiple languages from 'found' data: evaluation and analysis // In: Proc. 8th ISCA Speech Synthesis Workshop. 2013. pp. 101–106.
2. Toda T., Black A.W., and Tokuda K. Voice conversion based on maximum likelihood estimation of spectral parameter trajectory // IEEE Trans. Audio, Speech and Language Processing. 2007. vol. 15. no. 8. pp. 2222–2235.
3. Godoy E., Rosec O., Chonavel T. Spectral envelope transformation using DFW and amplitude scaling for voice conversion with parallel or nonparallel corpora // Proc. INTERSPEECH. Florence. Italy. 2011. pp. 673–676.
4. Desai S., Black A.W., Yegnanarayana B., Prahallad B. Spectral mapping using artificial neural networks for voice conversion // IEEE Trans. Audio, Speech and Language Processing. 2010. vol. 18. no. 5. pp. 954–964.
5. Azarov E., Vashkevich M., Likhachov D., Petrovsky A. Real-time Voice Conversion Using Artificial Neural Networks with Rectified Linear Units // Proc. INTERSPEECH Lyon. France. 2013. pp. 1032–1036.
6. Erro D., Moreno A., Bonafonte A. INCA Algorithm for Training Voice Conversion Systems From Nonparallel Corpora // IEEE Transactions on Audio, Speech, and Language Processing. 2010. vol. 18. no .5. pp. 944–953.
7. Yeldener S., De Martin J.C., Viswanathan V. A mixed sinusoidally excited linear prediction coder at 4 kb/s and below // Proc. ICASSP'98. 1998. vol. 2. pp. 589–592.
8. Boucheron L.E., De Leon P.L., Sandoval S. Low Bit-Rate Speech Coding Through Quantization of Mel-Frequency Cepstral Coefficients // IEEE Transactions on Audio, Speech, and Language Processing. 2012. vol. 20. no. 2. pp. 610–619.
9. Etemoglu C.O., Cuperman V. Matching pursuits sinusoidal speech coding // IEEE Transactions on Speech and Audio Processing. 2003. vol. 11, no. 5. pp. 413–424.
10. Shlomot E., Cuperman V., Gersho A. Hybrid coding: combined harmonic and waveform coding of speech at 4 kb/s // IEEE Transactions on Speech and Audio Processing. 2001. vol .9. no. 6. pp. 632–646.
11. Sercov V.V., Petrovsky A.A. An improved speech model with allowance for time-varying pitch harmonic amplitudes and frequencies in low bit-rate MBE coders // Proc. of the 6th European conference on “Speech communication and technology” (Eurospeech’99). Budapest. Hungary. 1999. pp. 1479–1482.
12. Петровский А.А., Серков В.В. Низкоскоростной вокодер с моделью речеобразования «гармоники+шум» // Цифровая обработка сигналов. Москва. 2002. №2. С. 61 74.
13. Udrea R.M., Ciochina S. Speech enhancement using spectral over-subtraction and residual noise reduction // International Symposium on Signals, Circuits and Systems. 2003. vol. 1. pp. 165–168.
14. Петровский А.А., Борович А., Парфенюк М. Дискретное преобразование Фурье с неравномерным частотным разрешением в перцептуальных системах редактирования шума в речи // Речевые технологии. Москва. 2008. №3. С. 16–26.
15. Borowicz A., Parfieniuk M., Petrovsky A.A. An application of the warped discrete Fourier transform in the perceptual speech enhancement // Speech Communication. ELSEVIER. 2006. vol. 48. pp. 1024–1036.
16. Hansen P.S.K., Hansen P.C., Hansen S.D., Sorensen J.A. Experimental comparison of signal subspace based noise reduction methods // IEEE International Conference on Acoustics, Speech, and Signal Processing. 1999. vol. 1, pp. 101–104.
17. Borowich A., Petrovsky. A. Signal subspace approach for psychoacoustically motivated speech enhancement // Speech Communication. Elsiver. 2011. vol. 53. pp. 210–219.
18. Yu W., Brookes M. Speech enhancement using a robust Kalman filter post-processor in the modulation domain // ICASSP–2013. 2013. pp.7457–7461.
19. Bielawski K., Petrovsky A.A. Speech enchancement system for hands-free tele-phone based on the psychoacoustically motivated filter bank with allpass frequency transformation // Proc. of the 6th European conference on “Speech communication and technology” (Eurospeech’99). Budapest. Hungary. 1999. pp.2555–2558.
20. Петровский А.А., Башун Я.М. Пре-процессор повышения качества зашумленной и реверберирующей речи для систем улитковой имплантации // Цифровая обработка сигналов. 2002. №2, Москва. С.48-61.
21. Zorila T.-C., Kandida V., Stylianou Y. Speech-in-noise intelligibility improvement based on spectral shaping and dynamic range compression // In Proc. Interspeech. Portland. Oregon. 2012. pp. 635–638.
22. Hinton G.E., Salakhutdinov R.R. Reducing the Dimensionality of Data with Neural Networks // Science. 2006. vol. 313 no. 786. pp. 504–507.
23. Arifianto D. Speech intelligibility improvement of cochlear implant using release of masking // ICACSIS–2013. 2013. pp.207–211.
24. D'Alessandro C., Yegnanarayana B., Darsinos V. Decomposition of speech signals into deterministic and stochastic components // ICASSP-95. 1995 vol.1. pp. 760–763.
25. Petrovsky Al., Azarov E., Petrovsky A. Hybrid signal decomposition based on instantaneous harmonic parameters and perceptually motivated wavelet packets for scalable audio coding // Signal Processing. Fourier Related Transforms for Non-Stationary Signals. Elsiver. 2011. vol. 91. Issue 6. pp. 1489–1504.
26. Kawaahra H., Nisimura R., Irino T., Morise M., Takahashi T., Banno B. Temporally variable multi-aspect auditory morphing enabling extrapolation without objective and perceptual breakdown // Proc. ICASSP. Taipei. Taiwan. 2009. pp: 3905–3908.
27. Pantazis Y., Stylianou Y. Improving the modeling of the noise part in the harmonic plus noise model of speech // Proc. ICASSP–2008. 2008. pp. 4609–4612.
28. Azarov E., Vashkevich M., Petrovsky A. Guslar: a framework for automated singing voice correction // The 39th International Conference on Acoustics, Speech and Signal Processing (ICASSP 2014). Florence. Italy. 2014. pp. 7969–7973.
29. Azarov E., Vashkevich M., Petrovsky A. Instantaneous pitch estimation based on RAPT framework // Proc. EUSIPCO'12. Bucharest. Romania. 2012. pp. 2787–2791.
30. Nair V., Hinton G.E. Rectified linear units improve restricted Boltzmann machines // Proc. ICML. Haifa. Israel. 2010.
31. Zeiler M.D., Ranzato M., Monga R., Mao M., Yang K., Le Q.V., Nguyen P., Senior A., Vanhoucke V., Dean J., Hinton G. On Rectified Linear Units for Speech Processing // Proc. ICASSP. Vancouver. Canada. 2013.
32. Rabiner L.R., Juang B-H. Fundamentals of speech recognition // Pearson Education. 1993. 507 p.
33. Осовский С. Нейронные сети для обработки информации // Москва: "Финансы и статистика". 2002. 344 с.
2. Toda T., Black A.W., and Tokuda K. Voice conversion based on maximum likelihood estimation of spectral parameter trajectory // IEEE Trans. Audio, Speech and Language Processing. 2007. vol. 15. no. 8. pp. 2222–2235.
3. Godoy E., Rosec O., Chonavel T. Spectral envelope transformation using DFW and amplitude scaling for voice conversion with parallel or nonparallel corpora // Proc. INTERSPEECH. Florence. Italy. 2011. pp. 673–676.
4. Desai S., Black A.W., Yegnanarayana B., Prahallad B. Spectral mapping using artificial neural networks for voice conversion // IEEE Trans. Audio, Speech and Language Processing. 2010. vol. 18. no. 5. pp. 954–964.
5. Azarov E., Vashkevich M., Likhachov D., Petrovsky A. Real-time Voice Conversion Using Artificial Neural Networks with Rectified Linear Units // Proc. INTERSPEECH Lyon. France. 2013. pp. 1032–1036.
6. Erro D., Moreno A., Bonafonte A. INCA Algorithm for Training Voice Conversion Systems From Nonparallel Corpora // IEEE Transactions on Audio, Speech, and Language Processing. 2010. vol. 18. no .5. pp. 944–953.
7. Yeldener S., De Martin J.C., Viswanathan V. A mixed sinusoidally excited linear prediction coder at 4 kb/s and below // Proc. ICASSP'98. 1998. vol. 2. pp. 589–592.
8. Boucheron L.E., De Leon P.L., Sandoval S. Low Bit-Rate Speech Coding Through Quantization of Mel-Frequency Cepstral Coefficients // IEEE Transactions on Audio, Speech, and Language Processing. 2012. vol. 20. no. 2. pp. 610–619.
9. Etemoglu C.O., Cuperman V. Matching pursuits sinusoidal speech coding // IEEE Transactions on Speech and Audio Processing. 2003. vol. 11, no. 5. pp. 413–424.
10. Shlomot E., Cuperman V., Gersho A. Hybrid coding: combined harmonic and waveform coding of speech at 4 kb/s // IEEE Transactions on Speech and Audio Processing. 2001. vol .9. no. 6. pp. 632–646.
11. Sercov V.V., Petrovsky A.A. An improved speech model with allowance for time-varying pitch harmonic amplitudes and frequencies in low bit-rate MBE coders // Proc. of the 6th European conference on “Speech communication and technology” (Eurospeech’99). Budapest. Hungary. 1999. pp. 1479–1482.
12. Петровский А.А., Серков В.В. Низкоскоростной вокодер с моделью речеобразования «гармоники+шум» // Цифровая обработка сигналов. Москва. 2002. №2. С. 61 74.
13. Udrea R.M., Ciochina S. Speech enhancement using spectral over-subtraction and residual noise reduction // International Symposium on Signals, Circuits and Systems. 2003. vol. 1. pp. 165–168.
14. Петровский А.А., Борович А., Парфенюк М. Дискретное преобразование Фурье с неравномерным частотным разрешением в перцептуальных системах редактирования шума в речи // Речевые технологии. Москва. 2008. №3. С. 16–26.
15. Borowicz A., Parfieniuk M., Petrovsky A.A. An application of the warped discrete Fourier transform in the perceptual speech enhancement // Speech Communication. ELSEVIER. 2006. vol. 48. pp. 1024–1036.
16. Hansen P.S.K., Hansen P.C., Hansen S.D., Sorensen J.A. Experimental comparison of signal subspace based noise reduction methods // IEEE International Conference on Acoustics, Speech, and Signal Processing. 1999. vol. 1, pp. 101–104.
17. Borowich A., Petrovsky. A. Signal subspace approach for psychoacoustically motivated speech enhancement // Speech Communication. Elsiver. 2011. vol. 53. pp. 210–219.
18. Yu W., Brookes M. Speech enhancement using a robust Kalman filter post-processor in the modulation domain // ICASSP–2013. 2013. pp.7457–7461.
19. Bielawski K., Petrovsky A.A. Speech enchancement system for hands-free tele-phone based on the psychoacoustically motivated filter bank with allpass frequency transformation // Proc. of the 6th European conference on “Speech communication and technology” (Eurospeech’99). Budapest. Hungary. 1999. pp.2555–2558.
20. Петровский А.А., Башун Я.М. Пре-процессор повышения качества зашумленной и реверберирующей речи для систем улитковой имплантации // Цифровая обработка сигналов. 2002. №2, Москва. С.48-61.
21. Zorila T.-C., Kandida V., Stylianou Y. Speech-in-noise intelligibility improvement based on spectral shaping and dynamic range compression // In Proc. Interspeech. Portland. Oregon. 2012. pp. 635–638.
22. Hinton G.E., Salakhutdinov R.R. Reducing the Dimensionality of Data with Neural Networks // Science. 2006. vol. 313 no. 786. pp. 504–507.
23. Arifianto D. Speech intelligibility improvement of cochlear implant using release of masking // ICACSIS–2013. 2013. pp.207–211.
24. D'Alessandro C., Yegnanarayana B., Darsinos V. Decomposition of speech signals into deterministic and stochastic components // ICASSP-95. 1995 vol.1. pp. 760–763.
25. Petrovsky Al., Azarov E., Petrovsky A. Hybrid signal decomposition based on instantaneous harmonic parameters and perceptually motivated wavelet packets for scalable audio coding // Signal Processing. Fourier Related Transforms for Non-Stationary Signals. Elsiver. 2011. vol. 91. Issue 6. pp. 1489–1504.
26. Kawaahra H., Nisimura R., Irino T., Morise M., Takahashi T., Banno B. Temporally variable multi-aspect auditory morphing enabling extrapolation without objective and perceptual breakdown // Proc. ICASSP. Taipei. Taiwan. 2009. pp: 3905–3908.
27. Pantazis Y., Stylianou Y. Improving the modeling of the noise part in the harmonic plus noise model of speech // Proc. ICASSP–2008. 2008. pp. 4609–4612.
28. Azarov E., Vashkevich M., Petrovsky A. Guslar: a framework for automated singing voice correction // The 39th International Conference on Acoustics, Speech and Signal Processing (ICASSP 2014). Florence. Italy. 2014. pp. 7969–7973.
29. Azarov E., Vashkevich M., Petrovsky A. Instantaneous pitch estimation based on RAPT framework // Proc. EUSIPCO'12. Bucharest. Romania. 2012. pp. 2787–2791.
30. Nair V., Hinton G.E. Rectified linear units improve restricted Boltzmann machines // Proc. ICML. Haifa. Israel. 2010.
31. Zeiler M.D., Ranzato M., Monga R., Mao M., Yang K., Le Q.V., Nguyen P., Senior A., Vanhoucke V., Dean J., Hinton G. On Rectified Linear Units for Speech Processing // Proc. ICASSP. Vancouver. Canada. 2013.
32. Rabiner L.R., Juang B-H. Fundamentals of speech recognition // Pearson Education. 1993. 507 p.
33. Осовский С. Нейронные сети для обработки информации // Москва: "Финансы и статистика". 2002. 344 с.
Опубликован
2014-12-16
Как цитировать
Азаров, И. С., & Петровский, А. А. (2014). Формирование персональной модели голоса диктора с универсальным фонетическим пространством признаков на основе искусственной нейронной сети. Труды СПИИРАН, 5(36), 128-150. https://doi.org/10.15622/sp.36.8
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).