Масштабируемые аудиоречевые кодеры на основе адаптивного частотно-временного анализа звуковых сигналов
Ключевые слова:
масштабируемый аудио-речевой кодер, пакет дискретного вейвлет-преобразования, согласованная подгонкаАннотация
В статье рассматриваются методы перцептуальной субполосной обработки звуковых сигналов с динамической трансформацией частотно-временного плана на основе пакетного дискретного вейвлет-преобразования (ПДВП), достоинством которых является то, что рост дерева осуществляется сверху вниз, без возвратов на меньшие масштабные уровни преобразования и необходимости построения полного дерева ПДВП, что соответствует концепции реализации масштабируемых аудиоречевых кодеров в реальном масштабе времени. Приводятся объективные оценки качества предлагаемых кодеров на основе методики PEMO-Q и сравнения с широко распространенными кодерами Opus и Vorbis, которые показывают, что реконструированный сигнал соответствует требованиям стандарта ITU-R PEAQ при высокой степени компрессии в 18 и более раз, не содержит артефактов: отношение мощности шума к порогу маскирования 〖NMR〗_total меньше –9 дБ.Литература
1. Kahrs M., Brandenurg K.. Application of digital signal processing to audio and acoustics // USA Boston: Kluwer Academic Publishers. 1998. 545 p.
2. Valin J.-M., Terriberry T. B., Montgomery C., Maxwell G., A high-quality speech and audio codec with less than 10-ms delay, // IEEE Transaction on audio, speech, and language processing. 2010. vol. 18. pp. 58–67.
3. Umapathy K., Ghoraani B., Krishnan S., Audio signal processing using time-frequency approaches: coding, classifcation, fingerprinting, and watermarking // EURASIP Journal on Advances in Signal Processing. 2010. vol. 2010. no. 1. pp. 451695.
4. Painter T., Spanias A. Perceptual Coding of Digital Audio // Proceedings of IEEE. 2000. vol. 88. no. 4. pp. 451–513.
5. Brandenburg K. Introduction to perceptual coding // Collected Papers on Digital Audio Bit-Rate Reduction. Eds. 1996. pp. 23–30.
6. Spanias A., Painter T., Atti V. Audio signal processing and coding // John Wiley & Sons, Inc. New Jersey. USA. 2007. 464 p.
7. Вашкевич М.И., Азаров И.С., Петровский А.А. Косинусно-модулированные банки фильтров с фазавым преобразованием: реализация и применение в слуховых аппаратах // Горячая линия-Телеком. Москва. 2014. 210 с.
8. Bosi M., Goldberg R.E. Introduction to digital audio coding and standards // Springer Science+Business Media. USA. 2003. 434 p.
9. Wickerhauser M.V. Adaptive Wavelet Analysis from Theory to Software // Massachusetts: A.K. Peters Ltd. 1994. 486 p.
10. Johnston J.D. Transform coding of audio signals using perceptual noise criteria // IEEE Transaction on Selected Areas of Communication. 1988. vol. 6. pp. 314–323.
11. Ковалгин Ю.А., Вологдин Э.И. Аудиотехника // Горячая линия-Телеком. 2013. 742 с.
12. Reyes N.R., Candeas P.V. Adaptive signal modeling based on sparse approximations for scalable parametric audio coding // IEEE Transactions on audio, speech, and language processing. 2010. vol. 18. pp. 447–460.
13. Petrovsky Al., Herasimovich V., Petrovsky A. Scalable parametric audio coder using sparse approximation with frame-to-frame perceptually optimized wavelet packet based dictionary // 138th AES Convention. 2015. paper 9264. 10 p.
14. Mallat S., Zhang Z. Matching pursuits with time-frequency dictionaries // IEEE Transaction on Signal Processing. 1993 vol. 41. no. 12. pp. 3397–3415.
15. Chardon G., Necciari T., Balazs P. Perceptual matching pursuit with Gabor dictionaries and time-frequency masking // Proceedings of IEEE ICASSP’2014. 2014. pp. 3126–3130.
16. Ravelli E., Gaeul R., Daudet L., Matching pursuit in adaptive dictionaries for scalable audio coding // Proceedings of EUSIPCO’2008. 2008. pp. 1–5.
17. Petrovsky Al., Azarov E., Petrovsky A. Hybrid signal decomposition based on instantaneous harmonic parameters and perceptually motivated wavelet packets for scalable audio coding // Signal Processing. Special issue “Fourier Related Transforms for Non-Stationary Signals”. 2011. vol. 91. Issue 6. pp. 1489–1504.
18. Petrovsky Аl., Herasimovich М., Petrovsky A. Bio-inspired sparse representation of speech and audio using psychoacoustic adaptive matching pursuit // Proceedings of 18th International Conference of SPECOM 2016. 2016. pp. 156–164.
19. Petrovsky Al., Herasimovich V., Petrovsky A. Audio/speech coding using frame-based psychoacoustic optimized time-frequency dictionaries and its performance evaluation // IEEE conference proceedings “Signal processing: algorithms, architectures, arrangements, and applications” (SPA-2016). 2016. pp.225–229.
20. Burrus C.S., Gopinath R.A., Guo H. Introduction to wavelets and wavelet transforms // N.J.: Prentice Hall. 1998. 298 p.
21. Cohen I., Raz S., Malah D. Orthonormal shift-invariant adaptive packet decomposition and representation // Signal Processing. 1997. vol. 57. Issue 3. pp. 251–270.
22. Анализаторы речевых и звуковых сигналов: методы, алгоритмы и практика / под ред. проф. А.А. Петровского // Минск: Бестпринт. 2009. 455 с.
23. Zwicker E., Fastl H. Psychoacoustics: Facts and Models // Berlin, Germany: Springer-Verlag. 1990. 380 p.
24. ITU-R Recommendation BS.1387, Method for Objective Measurements of Perceived Audio Quality. 1998.
25. Petrovsky Al. A multiresolution auditory model using adaptive WP excitation scalograms // Polska akademia nauk “Elektronika”. 2008. vol. 49. no 4. pp. 65–70.
26. Petrovsky Al., Krahe D., Petrovsky A. Real-time performance measures of low delay perceptual audio coding // Journal of Electrical engineering. 2005. vol. 56. no. 3–4. pp. 100–105.
27. Petrovsky Al., Rodionov M., Petrovsky A. Dynamic reconfigurable on the lifting steps wavelet packet processor with frame-based psychoacoustic optimized time-frequency tiling for real-time audio applications // Design and architectures for digital signal processing. InTech. 2013. pp. 3–30.
28. Karmakar A., Kumar A., Patney R.K. Synthesis of an optimal wavelet based on auditory perception criterion // EURASIP Journal on Advance in Signal Processing. 2011. vol. 2011. no. 1. pp. 170927.
29. Петровский Ал.А. Построение психоакустической модели в области вейвлет коэффициентов для перцептуальной обработки звуковых и речевых сигналов // Научно-практический журнал «Речевые технологии». Москва. 2008. № 4. С. 61–71.
30. Coifman R., Wickerhauser M.V. Entropy-Based Algorithms for Best Basis Selection // IEEE Transaction on Information Theory. 1992. мol. 38. тo. 2. pp. 713–718.
31. Vera-Candeas P., Ruiz-Reyes N., Roza-Zurera M. Transient modelling by Matching-Pursuits with a wavelet dictionary for parametric audio coding // IEEE Signal Processing Letters. 2004. vol. 11. no. 3. pp. 349–352.
32. Petrovsky Al., Petrovsky A. Matching pursuit algorithm with frame-based auditory optimized WP-dictionary for audio transient modeling // Polska academia nauk “Elektronika”. 2008. vol. 49. no.4. pp. 74–79.
33. Heusdens R., Vafin R., Kleijn W.B. Sinusoidal modeling using psychoacoustic-adaptive matching pursuits // IEEE Signal Processing Letters. 2002. vol. 9. no. 8. pp. 262–265.
34. Huber R., Kollmeier BPEMO-Q – A New Method for Objective Audio Quality Assessment Using a Model of Auditory Perception // IEEE Transactions on audio, speech, and language processing. 2006. vol. 14. pp. 1902–1911.
35. Vos K., Sørensen K. V., Jensen S. S., Valin J.-M, Voice coding with Opus // Proc. AES 135th Convention. 2013. paper 8941.10 p.
36. Valin J.-M., Maxwell G., Terriberry T.B., Vos KHigh-quality, low-delay music coding in the Opus codec // Proc. AES 135th Convention. 2013. paper 8942. 10 p.
2. Valin J.-M., Terriberry T. B., Montgomery C., Maxwell G., A high-quality speech and audio codec with less than 10-ms delay, // IEEE Transaction on audio, speech, and language processing. 2010. vol. 18. pp. 58–67.
3. Umapathy K., Ghoraani B., Krishnan S., Audio signal processing using time-frequency approaches: coding, classifcation, fingerprinting, and watermarking // EURASIP Journal on Advances in Signal Processing. 2010. vol. 2010. no. 1. pp. 451695.
4. Painter T., Spanias A. Perceptual Coding of Digital Audio // Proceedings of IEEE. 2000. vol. 88. no. 4. pp. 451–513.
5. Brandenburg K. Introduction to perceptual coding // Collected Papers on Digital Audio Bit-Rate Reduction. Eds. 1996. pp. 23–30.
6. Spanias A., Painter T., Atti V. Audio signal processing and coding // John Wiley & Sons, Inc. New Jersey. USA. 2007. 464 p.
7. Вашкевич М.И., Азаров И.С., Петровский А.А. Косинусно-модулированные банки фильтров с фазавым преобразованием: реализация и применение в слуховых аппаратах // Горячая линия-Телеком. Москва. 2014. 210 с.
8. Bosi M., Goldberg R.E. Introduction to digital audio coding and standards // Springer Science+Business Media. USA. 2003. 434 p.
9. Wickerhauser M.V. Adaptive Wavelet Analysis from Theory to Software // Massachusetts: A.K. Peters Ltd. 1994. 486 p.
10. Johnston J.D. Transform coding of audio signals using perceptual noise criteria // IEEE Transaction on Selected Areas of Communication. 1988. vol. 6. pp. 314–323.
11. Ковалгин Ю.А., Вологдин Э.И. Аудиотехника // Горячая линия-Телеком. 2013. 742 с.
12. Reyes N.R., Candeas P.V. Adaptive signal modeling based on sparse approximations for scalable parametric audio coding // IEEE Transactions on audio, speech, and language processing. 2010. vol. 18. pp. 447–460.
13. Petrovsky Al., Herasimovich V., Petrovsky A. Scalable parametric audio coder using sparse approximation with frame-to-frame perceptually optimized wavelet packet based dictionary // 138th AES Convention. 2015. paper 9264. 10 p.
14. Mallat S., Zhang Z. Matching pursuits with time-frequency dictionaries // IEEE Transaction on Signal Processing. 1993 vol. 41. no. 12. pp. 3397–3415.
15. Chardon G., Necciari T., Balazs P. Perceptual matching pursuit with Gabor dictionaries and time-frequency masking // Proceedings of IEEE ICASSP’2014. 2014. pp. 3126–3130.
16. Ravelli E., Gaeul R., Daudet L., Matching pursuit in adaptive dictionaries for scalable audio coding // Proceedings of EUSIPCO’2008. 2008. pp. 1–5.
17. Petrovsky Al., Azarov E., Petrovsky A. Hybrid signal decomposition based on instantaneous harmonic parameters and perceptually motivated wavelet packets for scalable audio coding // Signal Processing. Special issue “Fourier Related Transforms for Non-Stationary Signals”. 2011. vol. 91. Issue 6. pp. 1489–1504.
18. Petrovsky Аl., Herasimovich М., Petrovsky A. Bio-inspired sparse representation of speech and audio using psychoacoustic adaptive matching pursuit // Proceedings of 18th International Conference of SPECOM 2016. 2016. pp. 156–164.
19. Petrovsky Al., Herasimovich V., Petrovsky A. Audio/speech coding using frame-based psychoacoustic optimized time-frequency dictionaries and its performance evaluation // IEEE conference proceedings “Signal processing: algorithms, architectures, arrangements, and applications” (SPA-2016). 2016. pp.225–229.
20. Burrus C.S., Gopinath R.A., Guo H. Introduction to wavelets and wavelet transforms // N.J.: Prentice Hall. 1998. 298 p.
21. Cohen I., Raz S., Malah D. Orthonormal shift-invariant adaptive packet decomposition and representation // Signal Processing. 1997. vol. 57. Issue 3. pp. 251–270.
22. Анализаторы речевых и звуковых сигналов: методы, алгоритмы и практика / под ред. проф. А.А. Петровского // Минск: Бестпринт. 2009. 455 с.
23. Zwicker E., Fastl H. Psychoacoustics: Facts and Models // Berlin, Germany: Springer-Verlag. 1990. 380 p.
24. ITU-R Recommendation BS.1387, Method for Objective Measurements of Perceived Audio Quality. 1998.
25. Petrovsky Al. A multiresolution auditory model using adaptive WP excitation scalograms // Polska akademia nauk “Elektronika”. 2008. vol. 49. no 4. pp. 65–70.
26. Petrovsky Al., Krahe D., Petrovsky A. Real-time performance measures of low delay perceptual audio coding // Journal of Electrical engineering. 2005. vol. 56. no. 3–4. pp. 100–105.
27. Petrovsky Al., Rodionov M., Petrovsky A. Dynamic reconfigurable on the lifting steps wavelet packet processor with frame-based psychoacoustic optimized time-frequency tiling for real-time audio applications // Design and architectures for digital signal processing. InTech. 2013. pp. 3–30.
28. Karmakar A., Kumar A., Patney R.K. Synthesis of an optimal wavelet based on auditory perception criterion // EURASIP Journal on Advance in Signal Processing. 2011. vol. 2011. no. 1. pp. 170927.
29. Петровский Ал.А. Построение психоакустической модели в области вейвлет коэффициентов для перцептуальной обработки звуковых и речевых сигналов // Научно-практический журнал «Речевые технологии». Москва. 2008. № 4. С. 61–71.
30. Coifman R., Wickerhauser M.V. Entropy-Based Algorithms for Best Basis Selection // IEEE Transaction on Information Theory. 1992. мol. 38. тo. 2. pp. 713–718.
31. Vera-Candeas P., Ruiz-Reyes N., Roza-Zurera M. Transient modelling by Matching-Pursuits with a wavelet dictionary for parametric audio coding // IEEE Signal Processing Letters. 2004. vol. 11. no. 3. pp. 349–352.
32. Petrovsky Al., Petrovsky A. Matching pursuit algorithm with frame-based auditory optimized WP-dictionary for audio transient modeling // Polska academia nauk “Elektronika”. 2008. vol. 49. no.4. pp. 74–79.
33. Heusdens R., Vafin R., Kleijn W.B. Sinusoidal modeling using psychoacoustic-adaptive matching pursuits // IEEE Signal Processing Letters. 2002. vol. 9. no. 8. pp. 262–265.
34. Huber R., Kollmeier BPEMO-Q – A New Method for Objective Audio Quality Assessment Using a Model of Auditory Perception // IEEE Transactions on audio, speech, and language processing. 2006. vol. 14. pp. 1902–1911.
35. Vos K., Sørensen K. V., Jensen S. S., Valin J.-M, Voice coding with Opus // Proc. AES 135th Convention. 2013. paper 8941.10 p.
36. Valin J.-M., Maxwell G., Terriberry T.B., Vos KHigh-quality, low-delay music coding in the Opus codec // Proc. AES 135th Convention. 2013. paper 8942. 10 p.
Опубликован
2017-02-02
Как цитировать
Петровский, А. А., & Петровский, А. А. (2017). Масштабируемые аудиоречевые кодеры на основе адаптивного частотно-временного анализа звуковых сигналов. Труды СПИИРАН, 1(50), 55-92. https://doi.org/10.15622/sp.50.3
Раздел
Методы управления и обработки информации
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).