Аналитический обзор речевых и многомодальных методов распознавания когнитивных нарушений людей
Ключевые слова:
автоматическое определение когнитивных нарушений, речевые технологии в обеспечении здравоохранения, интерпретируемый искусственный интеллект, машинное обучениеАннотация
В течение последнего десятилетия наблюдается рост количества публикаций научно-технической и медицинской направленности, посвящённых автоматическому определению на основании речевого и визуального материала таких когнитивных нарушений людей, которые возникают при таких нейродегенеративных заболеваниях, как деменция, болезнь Альцгеймера, болезнь Паркинсона и другие нарушения. Хотя данные заболевания имеют высокую степень распространения и являются одной из основных причин смертности и ранней инвалидизации людей, способов их эффективного лечения на данном этапе развития медицины отсутствуют или ограничены. В связи с этим ранняя диагностика симптомов и их облегчение вызывают значительный интерес исследователей. В фокусе современных исследований находится задача разработки автоматизированных и автоматических систем, основанных на количественных объективных методах, нейросетевых подходах, использующих различные модальности и их объединение, а также на методах интерпретируемого искусственного интеллекта. В статье представлен обзор и анализ основных исследований c 2022 года, посвящённых автоматическому одно- и многомодальному определению когнитивных нарушений людей. Представлены наиболее часто применяющиеся многомодальные корпусы, применяемые в данной задаче, такие как ADReSS, ADReSSo, TAUKADIAL и др. Описаны современные методы, используемые для выявления когнитивных нарушений на основе данных различных модальностей, представленные на международном соревновании TAUKADIAL-2024, и вне соревнований. По результатам соревнований, лучшими методами распознавания когнитивных нарушений являются ансамбли вероятностных моделей, обученные на интерпретируемых экспертных признаках и нейросетевых признаках текстов и аудио. Рассмотрены многомодальные подходы, использующие визуальную модальность для обучения глубоких нейросетевых моделей. Рассмотрено новое направление, изучающее применимость больших языковых моделей к анализу медицинских текстов и интерпретируемому предсказанию заболевания. Проведена систематизация методов извлечения информативных признаков и применяемых классификаторов. По результатам проведенного обзора сформулированы требования к системам автоматизированного определения когнитивных нарушений.
Литература
2. Jonell P. et al. Multimodal Capture of Patient Behaviour for Improved Detection of Early Dementia: Clinical Feasibility and Preliminary Results // Frontiers in Computer. Sciences. 2021. vol. 3. DOI: 10.3389/fcomp.2021.642633.
3. Javeed A., Dallora A.L., Berglund J.S., et al. Machine Learning for Dementia Prediction: A Systematic Review and Future Research Directions. Journal of Medical Systems. 2023. vol. 47(17). DOI: 10.1007/s10916-023-01906-7.
4. Ляксо Е.Е., Фролова О.В., Гречаный С.В., Матвеев Ю.Н., Верхоляк О.В., Карпов А.А. Голосовой портрет ребенка с типичным и атипичным развитием // СПб.: Издательско-полиграфическая ассоциация высших учебных заведений. 2020. 204 с.
5. Величко А.Н., Карпов А.А. Аналитический обзор систем автоматического определения депрессии по речи // Информатика и автоматизация. 2021. № 20(3). C. 497–529. DOI: 10.15622/ia.2021.3.1.
6. Боголепова А.Н. и др. Клинические рекомендации «Когнитивные расстройства у пациентов пожилого и старческого возраста» // Журнал неврологии и психиатрии им. С.С. Корсакова. 2022. Т. 121(10-3). С. 6–137.
7. Ganguli M., Chang C.C., Snitz B.E., Saxton J.A., Vanderbilt J., Lee C.W. Prevalence of mild cognitive impairment by multiple classifications: The Monongahela-Youghiogheny Healthy Aging Team (MYHAT) project // American Journal of Geriatric Psychiatry. 2010. vol. 18(8). pp. 674–683. DOI: 10.1097/JGP.0b013e3181cdee4f.
8. Larrieu S., Letenneur L, Orgogozo J.M., Fabrigoule C., Amieva H., Le Carret N., Barberger-Gateau P., Dartigues J.F. Incidence and outcome of mild cognitive impairment in a population-based prospective cohort // Neurology. 2002. vol. 59(10). pp. 1594–1599. DOI: 10.1212/01.wnl.0000034176.07159.f8.
9. Roberts R.O, Geda Y.E., Knopman D.S., Cha R.H., Pankratz V.S., Boeve B.F., Ivnik R.J., Tangalos E.G., Petersen R.C., Rocca W.A. The Mayo Clinic Study of Aging: design and sampling, participation, baseline measures and sample characteristics // Neuroepidemiology. 2008. vol. 30(1). pp. 58–69. DOI: 10.1159/000115751.
10. Чердак М.А. и др. Распространенность когнитивных расстройств у пациентов старшего возраста в Российской Федерации // Журнал неврологии и психиатрии им. С.С. Корсакова. Спецвыпуски. 2024. Т. 124(4-2). С. 5–11.
11. Wallensten J., Ljunggren G., Nager A., Wachtler C., Bogdanovic N., Petrovic P., Carlsson A.C. Stress, depression, and risk of dementia – a cohort study in the total population between 18 and 65 years old in Region Stockholm // Alzheimer’s Research & Therapy. 2023. vol. 15(161). DOI: 10.1186/s13195-023-01308-4.
12. Локшина А.Б., Гришина Д.А. Терапия некогнитивных нервно-психических расстройств при болезни Альцгеймера // Неврология, нейропсихиатрия, психосоматика. 2021. Т. 13(6). С. 132–138. DOI: 10.14412/2074-2711-2021-6-132-138.
13. Nestor P.J., Scheltens P., Hodges J.R. Advances in the early detection of Alzheimer's disease // Nature Medicine. 2004. vol. 10. pp. S34–S41. DOI: 10.1038/nrn1433.
14. Botelho C., Abad A., Schultz T., Trancoso I. Speech as a biomarker for disease detection // IEEE Access. 2024. vol. 12. pp. 184487–184508.
15. Yamada Y., Shinkawa K., Ishikawa T., Nishimura M., Nemoto M., Tsukada E., Ota M., Nemoto K., Arai T. Multimodal behavioral analysis for early detection of Alzheimer’s disease: A preliminary result: Neuropsychiatry and behavioral neurology/Assessment/Measurement of neuropsychiatric/Behavioral and psychological symptoms // Alzheimer's & Dementia. 2020. vol. 16. DOI: 10.1002/alz.042897.
16. Boschi V., Catricala E., Consonni M., Chesi C., Moro A., Cappa S.F. Connected speech in neurodegenerative language disorders: a review // Frontiers in psychology. 2017. vol. 8. DOI: 10.3389/fpsyg.2017.00269.
17. Hecker P., Steckhan N., Eyben F., Schuller B.W., Arnrich B. Voice analysis for neurological disorder recognition – a systematic review and perspective on emerging trends // Frontiers in Digital Health. 2022. vol. 4. DOI: 10.3389/fdgth.2022.842301.
18. Voleti R., Liss J.M., Berisha V. A review of automated speech and language features for assessment of cognitive and thought disorders // IEEE journal of selected topics in signal processing. 2019. vol. 14(2). pp. 282–298. DOI: 10.1109/jstsp.2019.2952087.
19. Byers A.L., Yaffe K. Depression and risk of developing dementia // Nature Reviews Neurology. 2011. vol. 7(6). pp. 323–331. DOI: 10.1038/nrneurol.2011.60.
20. Braun F., Bayerl S.P., Perez-Toro P.A., Honig F., Lehfeld H., Hillemacher T., Noth E., Bocklet T., Riedhammer K. Classifying Dementia in the Presence of Depression: A Cross-Corpus Study // Proceedings of Interspeech 2023. vol. 2023. pp. 2308–2312. DOI: 10.21437/Interspeech.2023-1997.
21. Jonell P., et al. Multimodal Capture of Patient Behaviour for Improved Detection of Early Dementia: Clinical Feasibility and Preliminary Results // Frontiers in Computer Science. 2021. vol. 3. DOI: 10.3389/fcomp.2021.642633.
22. Lanzi A.M., Saylor A.K., Fromm D., Liu H., MacWhinney B., Cohen M.L. DementiaBank: Theoretical Rationale, Protocol, and Illustrative Analyses // American Journal of Speech-Language Pathology. 2023. vol. 32(2). pp. 426–438. DOI: 10.1044/2022_AJSLP-22-00281.
23. Becker J.T., Boller F., Lopez O.L., Saxton J., McGonigle K.L. The natural history of Alzheimer's disease: description of study cohort and accuracy of diagnosis // Archives of Neurology. 1994. vol. 51(6). pp. 585–594. DOI: 10.1001/archneur.1994.00540180063015.
24. Luz S., Haider F., Fuente S.d.l., Fromm D., MacWhinney B. Alzheimer’s Dementia Recognition through Spontaneous Speech: The ADReSS Challenge // Proceedings Interspeech. 2020. pp. 2172–2176. DOI: 10.21437/Interspeech.2020-2571.
25. MacWhinney B. The CHILDES Project: Tools for Analyzing Talk // Child Language Teaching and Therapy. 1992. vol. 8(2). pp. 217–218. DOI: 10.1177/026565909200800211.
26. Luz S., et al. Alzheimer's dementia recognition through spontaneous speech // Frontiers in Computer Science. 2021. vol. 3.
27. Luz S., et al. Connected Speech-Based Cognitive Assessment in Chinese and English // Proceedings Interspeech. 2024. pp. 947–951. DOI: 10.21437/Interspeech.2024-1807.
28. Chen X., Zhang W., Ma Y. Raw Waveform-Based End-to-End Alzheimer’s Disease Detection Method // Acta Electronica Sinica. 2023. vol. 51. no. 12. pp. 3582–3590.
29. Псарёва Н.Н. Беглость спонтанной речи как предиктор мягкого когнитивного снижения // ВКР по программе бакалавриата. М.: ВШЭ, 2024.
30. Karakostas A., Briassouli A., Avgerinakis K., Kompatsiaris I., Tsolaki M. The dem@care experiments and datasets: a technical report // arXiv preprint arXiv:1701.01142. 2016.
31. Kishimoto T. et al. PROMPT collaborators. The project for objective measures using computational psychiatry technology (PROMPT): Rationale, design, and methodology // Contemporary Clinical Trials Communications. 2020. vol. 19. DOI: 10.1016/j.conctc.2020.100649.
32. Poor F.F. et al. Prediction of Mild Cognitive Impairment Using a Hybrid Audio-Visual Approach: An I_CONECT Study // Alzheimer's & Dementia Journal. 2023. vol. 19. DOI: 10.1002/alz.074808.
33. Correia J., Teixeira F., Botelho C., Trancoso I., Raj B. The in-the-Wild Speech Medical Corpus // 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2021. pp. 6973–6977. DOI: 10.1109/ICASSP39728.2021.9414230.
34. Orozco J.R. et al. New Spanish speech corpus database for the analysis of people suffering from Parkinson’s disease // International Conference on Language Resources and Evaluation (LREC). 2014. pp. 342–347.
35. Gratch J. et al. The Distress Analysis Interview Corpus of human and computer interviews // International Conference on Language Resources and Evaluation (LREC). 2014. pp. 3123–3128.
36. DeVault D. et al. SimSensei kiosk: A virtual human interviewer for healthcare decision support // Proceedings of the 13th International Conference on Autonomous Agents and Multiagent Systems (AAMAS’14). 2014. pp. 1061–1068.
37. Vashkevich M., Rushkevich Yu., Petrovsky A. Bulbar ALS Detection Based on Analysis of Voice Perturbation and Vibrato // Proceedings of inter. conf. Signal Processing: Algorithms, Architectures, Arrangements, and Applications (SPA). 2019. pp. 267–272. DOI: 10.23919/SPA.2019.8936657.
38. Qi X., Zhou Q., Dong J., Bao W. Noninvasive automatic detection of Alzheimer's disease from spontaneous speech: a review // Frontiers in Aging Neuroscience. 2023. vol. 15.
39. Ding K., Chetty M., Noori Hoshyar A., Bhattacharya T., Klein B. Speech based detection of Alzheimer’s disease: a survey of AI techniques, datasets and challenges // Artificial Intelligence Review. 2024. vol. 57. no. 12.
40. Babu A. et al. XLS-R: Self-supervised cross-lingual speech representation learning at scale // Proceedings of Interspeech. 2022. pp. 2278–2282. DOI: 10.21437/Interspeech.2022-143.
41. Duan J., Wei F., Li H.D., Liu J. Pre-trained Feature Fusion and Matching for Mild Cognitive Impairment Detection // Proceedings of Interspeech. 2024. pp. 962–966.
42. Favaro A., Cao T., Dehak N., Moro-Velazquez L. Leveraging Universal Speech Representations for Detecting and Assessing the Severity of Mild Cognitive Impairment Across Languages // Proceedings of Interspeech. 2024. pp. 972–976. DOI: 10.21437/Interspeech.2024-2030.
43. Radford A., Kim J.W., Xu T., Brockman G., McLeavey C., Sutskever I. Robust speech recognition via large-scale weak supervision // International conference on machine learning. PMLR 2023. 2023. pp. 28492–28518.
44. Lee B.W., Lee J. LFTK: Handcrafted features in computational linguistics // Proceedings of the 18th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2023). 2023. pp. 1–19. DOI: 10.18653/v1/2023.bea-1.1.
45. Hoang B., Pang Y., Dodge H., Zhou J. Translingual Language Markers for Cognitive Assessment from Spontaneous Speech // Proceedings of Interspeech. 2024. 977–981. DOI: 10.21437/Interspeech.2024-1422.
46. Fan A. et al. Beyond English-centric multilingual machine translation // Journal of Machine Learning Research. 2021. vol. 22. no. 107. pp. 1–48.
47. Pérez-Toro P.A., Arias-Vergara T., Klumpp P., Weise T., Schuster M., Noeth E., Orozco-Arroyave J.R., Maier A.. Multilingual Speech and Language Analysis for the Assessment of Mild Cognitive Impairment: Outcomes from the Taukadial Challenge // Proceedings of Interspeech. 2024. pp. 982–986. DOI: 10.21437/Interspeech.2024-2115.
48. Zheng C. et al. Detecting Dementia from Face-Related Features with Automated Computational Methods // Bioengineering (Basel). 2023. vol. 10(7). DOI: 10.3390/bioengineering10070862.
49. Okunishi T., Zheng C., Bouazizi M., Ohtsuki T., Kitazawa M., Horigome T., Kishimoto T. Dementia and MCI Detection Based on Comprehensive Facial Expression Analysis from Videos During Conversation // IEEE Journal of Biomedical and Health Informatics. 2025. vol. 29(5). pp. 3537–3548. DOI: 10.1109/JBHI.2025.3526553.
50. Mu X. et al. Detecting Cognitive Impairment and Psychological Well-being among Older Adults Using Facial, Acoustic, Linguistic, and Cardiovascular Patterns Derived from Remote Conversations // arXiv preprint arXiv:2412.14194. 2024.
51. Jiang Z., Seyedi S., Griner E., Abbasi A., Rad A.B., Kwon H., Cotes R.O., Clifford G.D. Multimodal Mental Health Digital Biomarker Analysis from Remote Interviews Using Facial, Vocal, Linguistic, and Cardiovascular Patterns // IEEE Journal of Biomedical and Health Informatics. 2024. vol. 28(3). pp. 1680–1691. DOI: 10.1109/JBHI.2024.3352075.
52. Bang J.-U., Han S.-H., Kang B.-O. Alzheimer’s Disease recognition from spontaneous speech using large language models // ETRI Journal. 2024. vol. 46. no. 1. pp. 96–105. DOI: 10.4218/etrij.2023-0356.
53. Botelho C. et al. Macro-descriptors for Alzheimer's disease detection using large language models. Proc. Interspeech 2024. 2024. pp. 1975–1979.
54. Haulcy R., Glass J. CLAC: A Speech Corpus of Healthy English Speakers // Proceedings of Interspeech. 2021. pp. 2966–2970. DOI: 10.21437/Interspeech.2021-1810.
55. Dobrovolskii V. Word-Level Coreference Resolution // Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. 2021. pp. 7670–7675. DOI: 10.18653/v1/2021.emnlp-main.605.
56. Agarwal R., Melnick L., Frosst N., Zhang X., Lengerich B., Caruana R., Hinton G.E. Neural additive models: Interpretable machine learning with neural nets // Advances in Neural Information Processing Systems. 2021. vol. 34. pp. 4699–4711.
57. Jin D. et al. What Disease Does This Patient Have? A Large-Scale Open Domain Question Answering Dataset from Medical Exams // Applied Sciences. 2021. vol. 11(14). DOI: 10.3390/app11146421.
58. Pal A. et al. MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering // Proceedings of Machine Learning Research. 2022. vol. 174. pp. 248–260.
59. Arora R.K. et al. HealthBench: Evaluating Large Language Models Towards Improved Human Health // arXiv preprint arXiv:2505.08775. 2025.
60. Blinov P., Reshetnikova A., Nesterov A., Zubkova G., Kokh V. RuMedBench: A Russian Medical Language Understanding Benchmark // Conference on Artificial Intelligence in Medicine. 2022. pp. 383–392.
61. Tu T. et al. Towards generalist biomedical AI // NEJM Ai. 2024. vol. 1(3).
62. Driess D. et al. PaLM-E: an embodied multimodal language model. Proceedings of the 40th International Conference on Machine Learning (ICML'23). 2023. vol. 202. pp. 8469–8488.
63. Kim H. et al. Small language models learn enhanced reasoning skills from medical textbooks // NPJ Digital Medicine. 2025. vol. 8(1). DOI: 10.1038/s41746-025-01653-8.
64. Wang Y. et al. Exploiting prompt learning with pre-trained language models for Alzheimer's Disease detection // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2023. pp. 1–5. DOI: 10.1109/ICASSP49357.2023.10095993.
65. Balagopalan A., Shkaruta K., Novikova J. Impact of ASR on Alzheimer’s Disease Detection: All Errors are Equal, but Deletions are More Equal than Others // Proceedings of the Sixth Workshop on Noisy User-generated Text (W-NUT 2020). 2020. pp. 159–164. DOI: 10.18653/v1/2020.wnut-1.21.
66. Utkin L.V., Konstantinov A.V., Eremenko D.Yu., Zaborovsky V.S., Muliukha V.A. Interpretation methods for machine learning models in the framework of survival analysis with censored data: a brief over view // Computing, Telecommunications and Control. 2024. vol. 17. no. 3. pp. 22–31. DOI: 10.18721/JCSTCS.17302.
67. Alkhatib A. et al. Interpretable Graph Neural Networks for Tabular Data // Proceedings of the 27th European Conference on Artificial Intelligence (ECAI 2024). 2024. vol. 392. pp. 1848–1855.
68. Ren H., Zheng Y., Li C., Jing F., Wang Q., Luo Z., Li D., Liang D., Tang W., Liu L., Cheng W. Using Machine Learning to Predict Cognitive Decline in Older Adults From the Chinese Longitudinal Healthy Longevity Survey: Model Development and Validation Study // JMIR Aging. 2025. vol. 8. DOI: 10.2196/67437.
69. Karpov A.A., Yusupov R.M. Multimodal Interfaces of Human-Computer Interaction. Herald of the Russian Academy of Sciences. 2018. vol. 88(1). pp. 67–74. DOI: 10.1134/S1019331618010094.
Опубликован
Как цитировать
Раздел
Copyright (c) Михаил Дмитриевич Долгушин, Алексей Анатольевич Карпов

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).