Аудиокодек на основе перцептуального равенства исходного и восстановленного звукового сигнала
Ключевые слова:
сжатие аудиоданных, психоакустическая модель, спектр, субполосное разделение, перцептуальное равенство сигналовАннотация
Представлен метод сжатия аудиоданных с потерями (аудиокодек), позволяющий улучшить объективное качества восстановленного аудиосигнала на 25% для битрейта 390 кбит/с и 55% для битрейта 64кбит/с по сравнению с форматом AAC MPEG-4. Предлагаемый метод сжатия аудиоданных, базируется на развитии положений теории сжатия аудиоданных с потерями (ТСАП). Повышение объективного качества восстановленного звукового сигнала (по стандартизованной мере PEAQ) достигается за счет того, что ТСАП устраняет несовершенства современных методов сжатия аудиоданных с потерями в части использования психоакустических принципов восприятия звука человеком, в том числе после преодоления «психоакустического предела сжатия» аудиосигнала (т.е. момента в перцептуальном кодировании, когда имеющегося бюджета бит недостаточно для кодирования всех спектральных компонент с необходимой с точки зрения психоакустики точностью), и позволяет достичь перцептуального равенства восприятия исходного и восстановленного аудиосигналов. В качестве анализа состояния вопроса рассмотрены решения по сжатию аудиоданных без потерь и с потерями, а также с использованием искусственного интеллекта. Во всех современных методах сжатия аудиоданных с потерями процедура выбора спектральных компонент, которые необходимо сохранить, а также допустимой погрешности квантования их по уровню выполняется путем ряда достаточно сложных процедур, носящих общее название «психоакустическая модель метода сжатия аудиоданных с потерями». В строгом смысле, перцептуальное равенство спектров исходного и восстановленного сигналов ни одна из групп исследователей не доказала и как следствие – не может его гарантировать. Независимые эксперты регулярно публикуют тесты, показывающие, что современные аудиокодеки имеют проблемы на ряде сигналов. В статье предложен аудиокодек на основе перцептуального равенства исходного и восстановленного звукового сигнала, который базируется на новых идеях теории сжатия аудиоданных с потерями (ТСАП). Эти идеи гарантируют достижение перцептуального равенства восприятия исходного и восстановленного аудиосигналов на различных битовых скоростях, поэтому построенный на ее основе аудиокодек свободен от указанных выше недостатков и, как следствие, существенно превосходит современные кодеки в смысле объективного качества восстановленного аудиосигнала по мере PEAQ.
Литература
2. Журавлёва Л.В., Шишурин А.И. Сравнительный анализ аудиоформатов // Технологии инженерных и информационных систем. 2022. № 2. С. 67–78.
3. Каргин Р.И., Стаценко Л.Г. Форматы сжатия аудиоданных. Анализ и сравнение // Известия СПбГЭТУ ЛЭТИ. 2019. № 9. С. 31–37.
4. Koops H.V., Micchi G., Quinton E. Robust lossy audio compression identification. 2024. arxiv preprint arxiv:2407.21545.
5. Ковалгин Ю.А., Фадеева Д.Р. Исследование психоакустических моделей кодеков с компрессией цифровых аудиоданных // Современная наука: актуальные проблемы теории и практики. Серия: Естественные и технические науки. 2016. № 7. С. 29–38.
6. Официальный сайт ITU. Method for objective measurements of perceived audio quality. Recommendation ITU-R BS.1387-2 (05/2023). URL: https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1387-2-202305-I!!PDF-E.pdf (дата обращения: 05.01.2025).
7. Cormen T., Leiserson C., Rivest R., Stein C. Introduction to Algorithms 4th Edition. Cambridge, Massachusetts: The MIT Press, 2022. 1312 p.
8. Чугунова О.В., Буслова В.Е. Архивации данных методами Шеннон-Фано и Хаффмана // Актуальные проблемы науки и техники: Сборник статей по материалам международной научно-практической конференции. Уфа: Изд. НИЦ Вестник науки, 2020. С. 58–65.
9. Сергеев И.С., Балакирев Н.Е. Сравнение алгоритмов сжатия звуковой информации алгоритмом Хаффмана и арифметическим кодированием // Наукосфера. 2022. № 8-2. С. 31–35.
10. Официальная страница проекта FLAC. URL: https://sourceforge.net/projects/flac/ (дата обращения: 05.01.2025).
11. Salomon D. Data compression: the complete reference 4th Edition // London: Springer-Verlag. 2007. 1117 c.
12. Официальный сайт Monkey’s Audio (Спецификация Monkey’s Audio). URL: https://www.monkeysaudio.com/index.html (дата обращения: 05.01.2025).
13. Официальный сайт проекта ALAC (Спецификация Apple Lossless Audio Codec). URL: https://macosforge.github.io/alac/ (дата обращения: 05.01.2025).
14. Официальный сайт Microsoft (Windows Media Player). URL: https://apps.microsoft.com/detail/9WZDNCRFJ3PT?hl=en-us&gl=US (дата обращения: 05.01.2025).
15. Официальный сайт Xiph.Org фонда (Спецификация Vorbis I Xiph.Org). URL: https://xiph.org/vorbis/doc/Vorbis_I_spec.html (дата обращения: 05.01.2025).
16. Официальный сайт Opus Interactive Audio Codec. URL: https://opus-codec.org/ (дата обращения: 05.01.2025).
17. Петровский Ал.А., Петровский А.А. Масштабируемые аудиоречевые кодеры на основе адаптивного частотно-временного анализа звуковых сигналов // Труды СПИИРАН. 2017. № 1(50). С. 55–92. DOI: 10.15622/sp.50.3.
18. Официальный сайт ITU. Audio coding for digital broadcasting. Recommendation ITU-R BS.1196-8 (10/2019). URL: https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1196-8-201910-I!!PDF-E.pdf (дата обращения: 05.01.2025).
19. Jenrungrot T., Chinen M., Kleijn W.B., Skoglund J., Borsos Z., Zeghidour N., Tagliasacchi M. LMcodec: a Low Bitrate Speech Codec With Causal Transformer Models // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2023. pp. 1–5. DOI: 10.1109/ICASSP49357.2023.10095442.
20. Shi H., Shimada K., Hirano M., Shibuya T., Koyama Y., Zhong Z., Takahashi S., Kawahara T., Mitsufuji Y. Diffusion-Based Speech Enhancement with Joint Generative and Predictive Decoders // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2024. pp. 12951–12955. DOI: 10.1109/ICASSP48485.2024.10448429.
21. Kong J., Kim J., Bae J. HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis // Proceedings of the 34th Conference on Neural Information Processing Systems (NIPS). 2020. vol. 33. pp. 17022–17033.
22. Kaneko T, Tanaka K., Kameoka H., Seki S. Istftnet: Fast and Lightweight Mel-spectrogram Vocoder Incorporating Inverse Short-Time Fourier Transform. 2022. arxiv preprint arXiv:2203.02395v1.
23. Subramani K., Valin J.-M., Isik U., Smaragdis P., Krishnaswamy A. End-to-end LPCNet: A Neural Vocoder With Fully-Differentiable LPC Estimation // Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH). 2022. pp. 818–822.
24. Valin J.-M., Skoglund J. LPCNet: Improving Neural Speech Synthesis Through Linear Prediction // Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2019. pp. 5891–5895. DOI: 10.1109/ICASSP.2019.8682804.
25. Valin J.-M., Isik U., Smaragdis P., Krishnaswamy A. Neural Speech Synthesis on a Shoestring: Improving the Efficiency of LPCNet // Proceedings of the International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2022. pp. 8437–8441.
26. Valin J.-M., Buthe J., Mustafa A. Low-Bitrate Redundancy Coding of Speech Using a Rate-distortion-optimized Variational Autoencoder // Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2023. pp. 1–5. DOI: 10.1109/ICASSP49357.2023.10096528.
27. Zeghidour N., Luebs A., Omran A., Skoglund J., Tagliasacchi M. SoundStream: An End-to-End Neural Audio Codec // Proceedings of the IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2021. vol. 30. pp. 495–507.
28. Du Z., Zhang S., Hu K., Zheng S. FunCodec: A Fundamental, Reproducible and Integrable Open-Source Toolkit for Neural Speech Codec. 2023. arxiv preprint arXiv:2309.07405v1.
29. Defossez A., Copet J., Synnaeve G., Adi Y. Funcodec: High Fidelity Neural Audio Compression. 2022. arxiv preprint arXiv:2210.13438v1.
30. Демо-сайт проекта High Fidelity Neural Audio Compression (EnCodec). URL: https://ai.honu.io/papers/encodec/samples.html (дата обращения: 18.10.2024).
31. Yin D., Luo C., Xiong Z., Zeng W. PHASEN: A Phase-and-Harmonics-Aware Speech Enhancement Network. 2019. arxiv preprint arXiv:1911.04697v1.
32. Рогозинский Г.Г. Перцепционное сжатие звука с использованием вейвлетных пакетов // Диссертация СПбГУКиТ. 2010.
33. Zwicker E., Fastl H. Psychoacoustics: Facts and Models // Springer-Verlag, Berlin Heidelberg. 1990.
34. Официальный сайт ITU. General methods for the subjective assessment of sound quality. Recommendation ITU-R BS. 1284-2 (01/2019). URL: https://www.itu.int/dms_pubrec/itu-r/rec/bs/R-REC-BS.1284-2-201901-I!!PDF-E.pdf (дата обращения: 05.01.2025).
Опубликован
Как цитировать
Раздел
Copyright (c) Илья Игоревич Чижов

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).