Эффективная реализация гамматон-фильтров на основе неравнополосного косинусно-модулированного банка фильтров
Ключевые слова:
банк гамматон-фильтров, неравнополосный косинусно-модулированный банк фильтров, слуховые фильтры, полифазная реализация, фазовое преобразование, PyTorchАннотация
В работе представлена эффективная реализация банка гамматон-фильтров (БГФ) на основе неравнополосного косинусно-модулированного банка фильтров (НКМБФ), использующего фазовое преобразование. Рассмотрены примеры практических задач, в которых применяется банк гамматон-фильтров, проанализированы его основные особенности и недостатки. Приведено описание равнополосного косинусно-модулированного банка фильтров, а также показан процесс синтеза НКМБФ из его равнополосного аналога при помощи фазового преобразования. Разработан оптимизационный метод проектирования фильтра-прототипа НКМБФ для аппроксимации частотных характеристик БГФ. В основе метода лежит мультипликативная модель импульсной характеристики фильтра-прототипа, использующая логистические сигмоидальные функции. Суть предлагаемого метода заключается в оптимизации фильтра-прототипа с целью минимизации среднеквадратичной ошибки между АЧХ БГФи НКМБФ для каждого канала. Выполнена программная реализация на языке Python с использованием библиотеки PyTorch. Проведены экспериментальные исследования предложенного метода. Результаты экспериментов показали, что НКМБФ можно использовать для аппроксимации частотных характеристик БГФ, а результирующая АЧХ имеет монотонные спады за счёт использования логистических сигмоидальных функций. Проведён анализ зависимости результирующей ошибки аппроксимации частотных характеристик банка гамматон-фильтров от количества сигмоид, используемых для синтеза фильтра-прототипа НКМБФ на базе мультипликативной модели импульсной характеристики. Выполнен анализ вычислительной сложности НКМБФ, показано как зависит число операций сложения и умножения от длины импульсной характеристики фильтра-прототипа и числа каналов банка фильтров. Сделан вывод, что использование НКМБФ для реализации банка гамматон-фильтров позволяет существенно уменьшить вычислительные затраты на реализацию гамматон-фильтров по сравнению с прямой реализацией.
Литература
2. Herre J., Dick S. Psychoacoustic models for perceptual audio coding – A tutorial review // Applied Sciences. 2019. vol. 9. no. 14. DOI: 10.3390/app9142854.
3. Schilling A., Gerum R., Metzner C., Maier A., Krauss P. Intrinsic noise improves speech recognition in a computational model of the auditory pathway // Frontiers in Neuroscience. 2022. vol. 16. DOI: 10.3389/fnins.2022.908330.
4. Schadler M.R., Hulsmeier D., Warzybok A., Kollmeier B. Individual aided speech-recognition performance and predictions of benefit for listeners with impaired hearing employing FADE // Trends in Hearing. 2020. vol. 24. DOI: 10.1177/2331216520938929.
5. Luo Q. The improving effect of intelligent speech recognition System on english learning // Advances in Multimedia. 2022. DOI: 10.1155/2022/2910859.
6. Krobba A., Debyeche M., Selouani S. A. A novel hybrid feature method based on Caelen auditory model and gammatone filterbank for robust speaker recognition under noisy environment and speech coding distortion // Multimedia Tools and Applications. 2023. vol. 82. no. 11. pp. 16195–16212.
7. Krobba A., Debyeche M., Selouani S. A. Mixture linear prediction Gammatone Cepstral features for robust speaker verification under transmission channel noise // Multimedia Tools and Applications. 2020. vol. 79. pp. 18679–18693.
8. Jacome K.G.R., Grijalva F.L., Masiero B.S. Sound events localization and detection using bio-inspired gammatone filters and temporal convolutional neural networks // IEEE/ACM transactions on audio, speech, and language processing. 2023. vol. 31. pp. 2314–2324.
9. Queiroz A., Coelho R. F0-based gammatone filtering for intelligibility gain of acoustic noisy signals // IEEE Signal Processing Letters. 2021. vol. 28. pp. 1225–1229.
10. Irino T. Hearing Impairment Simulator Based on Auditory Excitation Pattern Playback: WHIS // IEEE Access. 2023. vol. 11. pp. 78419–78430.
11. Kates J.M., Arehart K.H. The hearing-aid speech perception index (HASPI) version 2 // Speech Communication. 2021. vol. 131. pp. 35–46.
12. Порхун М.И., Вашкевич М.И. Метод моделирования эффекта ухудшения частотного разрешения слуха у больных нейросенсорной тугоухостью // Информатика. 2021. Т. 18. № 3. С. 68–82. DOI: 10.37661/1816-0301-2021-18-3-68-82.
13. Islam R., Tarique M. Investigating the performance of gammatone filters and their applicability to design cochlear implant processing system // Designs. 2024. vol. 8. no. 1. DOI: 10.3390/designs8010016.
14. Mourgela A., Reiss J., Agus T.R. Investigation of a real-time hearing loss simulation for use in audio production // Audio Engineering Society Convention 149. 2020.
15. Nagae M., Irino T., Nisimura R., Kawahara H., Patterson R.D. Hearing impairment simulator based on compressive gammachirp filter // Signal and Information Processing Association Annual Summit and Conference (APSIPA’2014). 2014. DOI: 10.1109/APSIPA.2014.7041579.
16. Вашкевич М.И., Азаров И.С. Сравнение частотно-временных преобразований: Фурье-анализ, вейвлеты и банки фильтров на основе фазового преобразования // Цифровая обработка сигналов. 2020. № 2. С. 13–26.
17. Patterson R.D., Nimmo-Smith I., Holdsworth J., Rice P. An efficient auditory filterbank based on the gammatone function // Meeting of the IOC Speech Group on Auditory Modelling at RSRE. 1987. vol. 2. no. 7.
18. Irino T., Patterson R.D. The gammachirp auditory filter and its application to speech perception // Acoustical Science and Technology. 2020. vol. 41. no. 1. pp. 99–107.
19. Wang D., Brown G. Computational Auditory Scene Analysis: Principles, Algorithms, and Applications. New Jersey: Wiley-IEEE Press. 2008. 395 p.
20. Feldbauer C., Kubin G., Kleijn W.B. Anthropomorphic Coding of Speech and Audio: A Model Inversion Approach // EURASIP Journal on Advances in Signal Processing. 2005. no. 9. pp. 1334–1349.
21. Koilpillai R.D., Vaidyanathan P.P. Cosine-modulated FIR filter banks satisfying perfect reconstruction // IEEE Trans. on Signal Processing. 1992. vol. 4. no. 4. pp. 770–783.
22. Вашкевич М.И., Петровский А.А. Неравнополосные банки фильтров для слуховых аппаратов: анализ алгоритмов, автоматизация проектирования // Автоматизация проектирования дискретных систем: материалы 7-й междунар. конф. (г. Минск, 16-17 ноября). 2010. C. 53–60.
23. Порхун М.И., Вашкевич М.И. Моделирование частотной характеристики банка гамматон-фильтров при помощи неравнополосного косинусно-модулированного банка фильтров // Цифровая обработка сигналов и её применение: труды 24-й междунар. конф. (г. Москва, 30 марта – 1 апреля). 2022. Т. 1. C. 53–57.
24. Kingma D.P., Ba J. Adam: A method for stochastic optimization // arXiv preprint. 2014. arXiv: 1412.6980. 15 p. URL: https://arxiv.org/pdf/1412.6980.pdf (дата обращения: 15.07.2024).
25. Zeiler M.D. ADADELTA: An adaptive learning rate method // arXiv preprint. 2012. arXiv:1212.5701. 6 p. URL: https://arxiv.org/pdf/1212.5701 (дата обращения: 15.07.2024).
26. Malcolm S. An Efficient Implementation of the Patterson-Holdsworth Auditory Filter Bank // Apple Computer Technical Report. 1993. vol. 35. no. 8. 42 p.
Опубликован
Как цитировать
Раздел
Copyright (c) Максим Игоревич Порхун, Максим Иосифович Вашкевич
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).