Определение патологии голосового аппарата на основе анализа модуляционного спектра речи в критических полосах
Ключевые слова:
анализ речевого сигнала, критические полосы, модуляционный спектр, модуляционные признаки, извлечение признаков, детектирование патологии по голосуАннотация
Предложен метод определения патологических изменений голоса на основе анализа модуляционного спектра речевого сигнала. Модуляционный спектр вычисляется при помощи двух последовательных частотно-временных преобразований: первое переводит сигнал в частотную область, второе – в модуляционную. Особенностью предложенного метода является использование неравномерного частотно-временного плана при переводе сигнала в частотную область. Предложен способ оценки модуляционного спектра, основанный на принципах антропоморфической обработки сигналов, имитирующий неравномерное частотно-временное разрешение слуховой системы человека. Использован неравнополосный банк фильтров модулированный дискретным преобразований Фурье,
аппроксимирующий шкалу критических частот и повышающий временное разрешение в широких полосах. Банк фильтров использует фазовые (всепропускающие) звенья в качестве элементов задержки, что позволяет получить неравномерный частотно-временной план. Выполнено сравнение предложенного способа с более традиционным способом вычисления модуляционного спектра в критических полосах с фиксированным временным разрешением. Приведены данные экспериментов по использованию параметров модуляционного спектра для определения патологических изменений голоса, обусловленных: 1) боковым амиотрофическим склерозом (БАС); 2) заболеваниями гортани. Отбор и ранжирование параметров модуляционного спектра, использованных в качестве информационных признаков для классификации, выполнен при помощи метода LASSO. Классификация параметров на основе линейного дискриминантного анализа обеспечила высокую точность определения патологии (более 97%). Полученные результаты свидетельствуют о том, что
использование неравномерного частотного-временного плана является предпочтительным в случае, когда анализируемый сигнал является протяжным гласным звуком, поскольку обеспечивает более высокую точность обнаружения патологии при меньшем числе модуляционных параметров.
Литература
2. Ding N. et al. Temporal modulations in speech and music // Neuroscience & Biobehavioral Reviews. 2017. vol. 81. pp. 181-187.
3. Arai T. et al. Syllable intelligibility for temporally filtered LPC cepstral trajectories // The Journal of the acoustical society of America. 1999. vol. 105. no. 5. pp. 2783-2791.
4. Greenberg S., Kingsbury B.E.D. The modulation spectrogram: In pursuit of an invariant representation of speech // Proceedings of IEEE international conference on acoustics, speech, and signal Processing (ICASSP). 1997. vol. 3. pp. 1647–1650.
5. Tyagi V. et al. Mel-cepstrum modulation spectrum (MCMS) features for robust ASR // Proceedings of IEEE Workshop on automatic speech recognition and understanding. 2003. pp. 399-404.
6. Рылов А.С. Анализ речи в распознающих системах. Мн.: Бестпринт, 2003. 264 с.
7. Hermansky H., Morgan N. RASTA processing of speech // IEEE Transactions on speech and audio processing. 1994. vol. 2. no. 4. pp. 578-589.
8. Петровский А.А., Башун Я.М. Пре-процессор повышения качества зашумленной и реверберирующей речи для систем улитковой имплантации // Цифровая обработка сигналов. 2002. №2. С. 48–61.
9. Азаров И.С. и др. Алгоритм очистки речевого сигнала от сложных помех путем фильтрации в модуляционной области // Цифровая обработка сигналов. 2013. №4. С. 25–31.
10. Sukittanon S., Atlas L.E., Pitton J.W. Modulation-scale analysis for content identification // IEEE Transactions on signal processing. 2004. vol. 52. No.10. pp. 3023-3035.
11. Smith C. L. et al. Extracting dynamic parameters from speech movement data // The Journal of the acoustical society of America. 1993. vol. 93. no. 3. pp. 1580-1588.
12. Giraud A.L. et al. Representation of the temporal envelope of sounds in the human brain // Journal of neurophysiology. 2000. vol. 84. no.3. pp. 1588-1598.13. Markaki M., Stylianou Y. Voice pathology detection and discrimination based on modulation spectral features // IEEE Transactions on audio, speech, and language processing. 2011. vol. 19. no. 7. pp. 1938-1948.
14. Moro-Velazquez L. et al. ´ Modulation spectra morphological parameters: a new method to assess voice pathologies according to the GRBAS Scale // BioMed Research International. 2015. vol. 2015. Article ID 259239. 13 pages.
15. Петровский А.А. (ред.). Анализаторы речевых и звуковых сигналов: Методы, алгоритмы и практика (с МАТЛАБ примерами). Мн.: Бестпринт, 2009. 456 с.
16. Kappelan M., Strauss B., Vary P. Flexible nonuniform filter banks using allpass transformation of multiple order // Proceedings of 8th european signal processing conference (EUSIPCO). 1996. pp. 1-4.
17. Moritz, N., Anemuller J., Kollmeier B. An auditory inspired amplitude modulation filter bank for robust feature extraction in automatic speech recognition // IEEE Transactions on audio, speech, and language processing. 2015. vol. 23. no. 11. pp. 1926-1937.
18. Оппенгейм А., Джонсон Д., Штейглиц К. Вычисление спектров с неравномерным разрешением посредством быстрого преобразования Фурье // ТИИЭР: пер. с англ. 1971. Т. 59. №2. С. 138–139.
19. Galijasevic E., Kliewer J. Design of allpass-based non-uniform oversampled DFT filter banks // Proceedings of IEEE International conference on acoustics, speech, and signal Processing (ICASSP). 2002. pp. 1181–1184.
20. Smith J.O., Abel J.S. Bark and ERB bilinear transforms //IEEE Transactions on speech and audio processing. 1999. vol. 7. no. 6. pp. 697-708.
21. Lin Y.P., Vaidynathan P.P. A kaiser window approach for the design of prototype filters of cosine modulated filterbanks // IEEE signal processing letters. 1998. vol. 5. no 6. pp 132-134.
22. Quatieri T. F. Discrete-time speech signal processing: principles and practice. – Prentice Hall PTR. 2006.
23. Gulzow T., Engelsberg A., Heute U. ¨ Comparison of a discrete wavelet transformation and a nonuniform polyphase filterbank applied to spectral-subtraction speech enhancement //Signal processing. 1998. vol. 64. no. 1. pp. 5-19.
24. Moritz N. et al. Multi-channel speech enhancement and amplitude modulation analysis for noise robust automatic speech recognition // Computer Speech & Language. 2017. vol. 46. pp. 558-573.
25. Avila A. R. et al. Feature pooling of modulation spectrum features for improved speech emotion recognition in the wild // IEEE Transactions on Affective Computing. – 2018.
26. Moro-Velazquez L., G ´ omez-Garc ´ ´ıa J.A., Godino-Llorente J.I. Voice pathology detection using modulation spectrum-optimized metrics // Frontiers in bioengineering and biotechnology. 2016. vol. 4. pp. 1-13.
27. Benba A., Jilbab A., Hammouch A. Discriminating between patients with Parkinson’s and neurological diseases using cepstral analysis //IEEE transactions on neural systems and rehabilitation engineering. 2016. vol. 24. no. 10. pp. 1100-1108.
28. Гвоздович А.Д., Рушкевич Ю.Н., Вашкевич М.И. Детектирование бульбарных нарушений при боковом амиотрофическом склерозе на основе анализа речевого сигнала //Доклады Белорусского государственного университета информатики и радиоэлектроники. 2018. Т. 116. № 6. C. 52-58.
29. Лысак А.П. Акустический анализ голоса в норме и патологии // Речевые технологии. 2012. № 4. C. 68-82.
30. Кожанов А. Л. и др. Функциональные результаты после открытых вертикальных резекций гортани // Вестник оториноларингологии. 2019. Т. 84. № 1. С. 46-50.
31. Vashkevich M., Petrovsky A., Rushkevich Y. Bulbar ALS detection based on analysis of voice perturbation and vibrato // Proceedings of international conference Signal Processing: Algorithms, Architectures, Arrangements, and Applications (SPA’2019). 2019. pp. 267-272.
32. Vashkevich M., Gvozdovich A., Rushkevich Y. Detection of bulbar dysfunction in ALS patients based on running speech test // Communications in Computer and Information Science. Springer 2019. vol 1055. pp. 192-204.
33. Вашкевич М.И. и др. Анализ акустических параметров голоса для выявления заболеваний гортани // Информатика. 2020. Т.17. № 1. C. 39-47.
34. Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных / пер. с англ. А.А Слинкина. М.: ДМК Пресс. 2015. 400 с.
35. Tsanas A., Little M.A., McSharry P.E. A methodology for the analysis of medical data // Handbook of Systems and Complexity in Health. Springer, New York, 2013. pp. 113-125.
36. Джеймс Г. и др. Введение в статистическое обучение с примерами на языке R/ пер. с англ С.Э. Мастицкого. М.: ДМК Пресс. 2016. 450 с.
37. Liu R., Gillie D.F. Feature selection using order statistics // Proceedings of international conference on Pattern Recognition and Information Processing (PRIP). 2011. pp. 195-199.
38. Norel R. et al. Detection of Amyotrophic Lateral Sclerosis (ALS) via Acoustic Analysis // Proceedings of Interspeech’2018. 2018. pp. 377-381.
Опубликован
Как цитировать
Раздел
Copyright (c) Максим Иосифович Вашкевич, Илья Сергеевич Азаров
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).