Изменение частоты основного тона речевого сигнала на основе гармонической модели с нестационарными параметрами
Ключевые слова:
гибридная модель речевого сигнала, оценка основного тона, изменение просодических характеристик речиАннотация
В статье предлагается решение задачи изменения частоты основного тона речевого сигнала. Необходимость решения данной задачи возникает во многих речевых приложениях таких как конверсия голоса, коррекция акцента, обеспечение конфиденциальности диктора и др. Разработанная схема обработки вокализованной части речевого сигнала основывается на гармонической модели с нестационарными (изменяющимися в каждый момент времени) параметрами. Для повышения частотного разрешения модели оценка параметров выполнятся при помощи узкополосной фильтрации в искривленном масштабе времени, согласованном с контуром мгновенной частоты основного тона. На основании субъективной оценки результатов показано, что разработанный способ обес-печивает высокую натуральность и разборчивость синтезированной речи и может применяться как в широкополосных так и в узкополосных каналах связи с различными стандартами кодирования (в том числе с кодеками G.711 и GSM).Литература
1. Flanagan J.L., Golden R. M. Phase vocoder // Bell System Technical Journal, 1966. vol. 45, pp. 1493-1509.
2. Levine S., Smith J. A sines+transients+noise audio representation for data compression and time/pitch scale modifications // Signal processing: proceedings of 105th AES convention, San Francisco, USA, San Francisco, Preprint 1998. № 4781. 21 p.
3. Serra X. A system for sound analysis/transformation/synthesis based on a deterministic plus stochastic decomposition: PhD thesis // Stanford, 1989. 178 p.
4. Kawahara H., Takahashi T., Morise M., Banno H. Development of exploratory research tools based on TANDEM-STRAIGHT // Proc. APSIPA, Sapporo, Japan, Oct. 2009.
5. Kawahara H., Morise M. Analysis and synthesis of strong vocal expressions: extension and application of audio texture features to singing voice // Proc. ICASSP'2012, Kyoto, Japan, March 2012. pp. 5389–5392.
6. Erro D., Sainz I., Navas E., Hernaez I. Improved HNM-based vocoder for statistical synthesizers // Proc. INTERSPEECH, Florence, Italy, Aug. 2011.
7. Painter T., Spanias A. Sinusoidal analysis-synthesis of audio using perceptual criteria // EURASIP Journal on Applied Signal Processing. 2003. № 1. pp. 15-20.
8. Degottlex G., Stylianou Y. A full-band adaptive harmonic representation of speech // Proc. INTERSPEECH, Portland, Oregon, USA, Sep. 2012.
9. Azarov E., Vashkevich M., Petrovsky A. Instantaneous pitch estimation based on RAPT framework // Proc. EUSIPCO, Bucharest, Romania, Aug. 2012, pp. 2787-2791.
10. Азаров И.С., Вашкевич М.И., Петровский А.А. Алгоритм оценки мгновенной частоты основного тона речевого сигнала // Цифровая обработка сигналов. Москва: 2012. №4. С. 49-57.
11. Talkin D. A Robust Algorithm for Pitch Tracking (RAPT) // Speech Coding & Synthesis, W B Kleijn, K K Paliwal eds, Elsevier ISBN 0444821694, 1995.
12. Vaidynathan P.P. Multirate Digital Filters, Filter Banks, Polyphase Networks, and Applications: A Tutorial // Processing of the IEEE. January, 1990. vol. 78, no 1. pp. 56–93.
2. Levine S., Smith J. A sines+transients+noise audio representation for data compression and time/pitch scale modifications // Signal processing: proceedings of 105th AES convention, San Francisco, USA, San Francisco, Preprint 1998. № 4781. 21 p.
3. Serra X. A system for sound analysis/transformation/synthesis based on a deterministic plus stochastic decomposition: PhD thesis // Stanford, 1989. 178 p.
4. Kawahara H., Takahashi T., Morise M., Banno H. Development of exploratory research tools based on TANDEM-STRAIGHT // Proc. APSIPA, Sapporo, Japan, Oct. 2009.
5. Kawahara H., Morise M. Analysis and synthesis of strong vocal expressions: extension and application of audio texture features to singing voice // Proc. ICASSP'2012, Kyoto, Japan, March 2012. pp. 5389–5392.
6. Erro D., Sainz I., Navas E., Hernaez I. Improved HNM-based vocoder for statistical synthesizers // Proc. INTERSPEECH, Florence, Italy, Aug. 2011.
7. Painter T., Spanias A. Sinusoidal analysis-synthesis of audio using perceptual criteria // EURASIP Journal on Applied Signal Processing. 2003. № 1. pp. 15-20.
8. Degottlex G., Stylianou Y. A full-band adaptive harmonic representation of speech // Proc. INTERSPEECH, Portland, Oregon, USA, Sep. 2012.
9. Azarov E., Vashkevich M., Petrovsky A. Instantaneous pitch estimation based on RAPT framework // Proc. EUSIPCO, Bucharest, Romania, Aug. 2012, pp. 2787-2791.
10. Азаров И.С., Вашкевич М.И., Петровский А.А. Алгоритм оценки мгновенной частоты основного тона речевого сигнала // Цифровая обработка сигналов. Москва: 2012. №4. С. 49-57.
11. Talkin D. A Robust Algorithm for Pitch Tracking (RAPT) // Speech Coding & Synthesis, W B Kleijn, K K Paliwal eds, Elsevier ISBN 0444821694, 1995.
12. Vaidynathan P.P. Multirate Digital Filters, Filter Banks, Polyphase Networks, and Applications: A Tutorial // Processing of the IEEE. January, 1990. vol. 78, no 1. pp. 56–93.
Опубликован
2014-04-09
Как цитировать
Азаров, И. С., Вашкевич, М. И., Лихачев, Д. С., & Петровский, А. А. (2014). Изменение частоты основного тона речевого сигнала на основе гармонической модели с нестационарными параметрами. Труды СПИИРАН, 1(32), 5-26. https://doi.org/10.15622/sp.32.1
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).