Моделирование кратко- и долговременных зависимостей речевого сигнала для паралингвистической классификации эмоций
Ключевые слова:
распознавание эмоций в речи, компьютерная паралингвистика, аффективные вычисления, представление признаков, моделирование контекста, искусственные нейронные сети, длинная кратковременная памятьАннотация
Распознавание эмоций в речи стало одним из важных направлений в области аффективных вычислений. Это комплексная задача, трудности которой во многом определяются необходимостью выбора признаков и их оптимального представления. Оптимальное представление признаков должно отражать глобальные характеристики, а также локальную структуру сигнала, поскольку эмоции естественным образом длятся во времени. Подобное представление возможно моделировать с помощью рекуррентных нейронных сетей (РНС – RNN), которые активно используются для различных задач распознавания, предполагающих работу с последовательностями. Предлагается смешанный подход к представлению признаков, который объединяет традиционные статистические признаки с последовательностью значений, полученных на выходе РНС с длинной кратковременной памятью (ДКП – LSTM) и хорошо моделирующих временную структуру сигнала. Таким образом, удается получить одновременное представление как кратковременных, так и долгосрочных характеристик, позволяющих использовать преимущества обоих подходов к моделированию признаков речевого сигнала. Для экспериментальной проверки предложенного метода была произведена оценка его эффективности на трех различных базах данных эмоционально окрашенной речи, находящихся в свободном доступе: RUSLANA (русская речь), BUEMODB (турецкая речь) и EMODB (немецкая речь). В сравнении с традиционным подходом результаты наших экспериментов показывают абсолютный прирост в точности распознавания эмоций в 2.3% и 2.8% для двух из вышеупомянутых корпусов, в то время как для третьего корпуса предложенный метод не уступает базовой системе. Следовательно, данный подход можно признать эффективным для моделирования эмоциональной окраски речевых высказываний при условии достаточного количества обучающих данных.
Литература
2. Mustafa M.B., Yusoof M.A., Don Z.M., Malekzadeh M. Speech emotion recognition research: an analysis of research focus // International Journal of Speech Technology. 2018. vol. 21. no. 1. pp. 137–156.
3. Laukka P., Juslin P., Bresin R. A dimensional approach to vocal expression of emotion // Cognition and Emotion. 2005. vol. 19. no. 5. pp. 633–653.
4. Nogueira P.A., Rodrigues R., Oliveira E., Nacke L.E. Modelling human emotion in interactive environments: Physiological ensemble and grounded approaches for synthetic agents // Web Intelligence. 2015. vol. 13. no. 3. pp. 195–214.
5. Kraus M.W. Voice-only communication enhances empathic accuracy // American Psychologist. 2017. vol. 72. no. 7. pp. 644–654.
6. Kreiman J., Sidtis D. Foundations of voice studies: an interdiscipinary approach to voice production and perception // John Wiley & Sons. 2013. 512 p.
7. Wöllmer M. et al. Context-sensitive multimodal emotion recognition from speech and facial expression using bidirectional LSTM modeling // Proc. INTERSPEECH. 2010. pp. 2362–2365.
8. Anagnostopoulos C.-N., Iliou T., Giannoukos I. Features and classifiers for emotion recognition from speech: a survey from 2000 to 2011 // Artificial Intelligence Review. 2015. vol. 43. no. 2. pp. 155–177.
9. Shabani S., Norouzi Y. Speech recognition using Principal Components Analysis and Neural Networks // IEEE 8th International Conference on Intelligent Systems. 2016. pp. 90–95.
10. Trigeorgis G. et al. Adieu features? end-to-end speech emotion recognition using a deep convolutional recurrent network // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2016. pp. 5200–5204.
11. Kaya H. et al. Emotion, age, and gender classification in children’s speech by humans and machines // Computer Speech & Language. 2017. vol. 46. pp. 268–283.
12. Kaya H., Karpov A.A. Efficient and effective strategies for cross-corpus acoustic emotion recognition // Neurocomputing. 2018. vol. 275. pp. 1028–1034.
13. Bengio Y., Courville A., Vincent P. Representation learning: A review and new perspectives // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2013. vol. 35. no. 8. pp. 1798–1828.
14. Ghosh S., Laksana E., Morency L.-P., Scherer S. Representation Learning for Speech Emotion Recognition // Proc. INTERSPEECH. 2016. pp. 3603–3607.
15. Kim Y., Provost E.M. Emotion classification via utterance-level dynamics: A pattern-based approach to characterizing affective expressions // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2013. pp. 3677–3681.
16. Li Y., Zhao Y. Recognizing emotions in speech using short-term and long-term features // Fifth International Conference on Spoken Language Processing. 1998. vol. 6. pp. 2255.
17. Jiang D.-N., Cai L.-H. Speech emotion classification with the combination of statistic features and temporal features // ICME. 2004. pp. 1967–1970.
18. Vlasenko B., Schuller B., Wendemuth A., Rigoll G. Combining frame and turn-level information for robust recognition of emotions within speech // Proc. INTERSPEECH. 2007. pp. 2249–2252.
19. Sainath T.N., Vinyals O., Senior A., Sak H. Convolutional, long short-term memory, fully connected deep neural networks // IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015. pp. 4580–4584.
20. Mao Q., Dong M., Huang Z., Zhan Y. Learning salient features for speech emotion recognition using convolutional neural networks // IEEE Transactions on Multimedia. 2014. vol. 16. no. 8. pp. 2203–2213.
21. Tran D. et al. Learning spatiotemporal features with 3d convolutional networks // Proceedings of the IEEE international conference on computer vision. 2015. pp. 4489–4497.
22. Kim J., Truong K.P., Englebienne G., Evers V. Learning spectro-temporal features with 3D CNNs for speech emotion recognition // Seventh International Conference on Affective Computing and Intelligent Interaction (ACII). 2017. pp. 383–388.
23. Chao L. et al. Long short term memory recurrent neural network based multimodal dimensional emotion recognition // Proceedings of the 5th International Workshop on Audio/Visual Emotion Challenge. 2015. pp. 65–72.
24. Schuller B. et al. The relevance of feature type for the automatic classification of emotional user states: Low level descriptors and functionals // Proc. INTERSPEECH. 2007. pp. 2253–2256.
25. Eyben F., Wöllmer M., Schuller B. Opensmile: the Munich versatile and fast open-source audio feature extractor // Proceedings of the 18th ACM international conference on Multimedia. 2010. pp. 1459–1462.
26. Schuller B., Steidl S., Batliner A. The INTERSPEECH 2009 emotion challenge // Tenth Annual Conference on the International Speech Communication Association INTERSPEECH. 2009. pp. 312¬–314.
27. Schuller B. et al. The INTERSPEECH 2010 paralinguistic challenge // Proc. INTERSPEECH. 2010. pp. 2794–2797.
28. Schuller B. et al. The INTERSPEECH 2011 speaker state challenge // Proc. INTERSPEECH. 2011. pp. 3201–3204.
29. Schuller B. et al. The INTERSPEECH 2013 computational paralinguistics challenge: social signals, conflict, emotion, autism // Proc. INTERSPEECH. 2013. pp. 148–152.
30. Greff, K. et al. LSTM: A search space odyssey // IEEE Transactions on Neural Networks and Learning Systems. 2017. vol. 28. no. 10. pp. 2222–2232.
31. Cho K. et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation // arXiv preprint arXiv:1406.1078. 2014.
32. Abadi M. et al. Tensorflow: a system for large-scale machine learning // OSDI. 2016. vol. 16. pp. 265–283.
33. Keogh E., Mueen A. Curse of dimensionality. Encyclopedia of machine learning. Springer. 2011. pp. 257–258.
34. Jolliffe I. Principal component analysis. International encyclopedia of statistical science. Springer. 2011. pp. 1094–1096.
35. Verkholyak O., Karpov A. Combined Feature Representation for Emotion Classification from Russian Speech // International Conference on Artificial Intelligence and Natural Language AINL-2017. Springer CCIS. vol. 789. 2018. pp. 68–73.
36. Makarova V., Petrushin V.A. RUSLANA: A database of Russian emotional utterances // Seventh International Conference on Spoken Language Processing. 2002. pp. 2041–2044.
37. Burkhardt, F., Paeschke, A., Rolfes, M., Sendlmeier, W.F., et al. A database of German emotional speech // Ninth European Conference on Speech Communication and Technology. 2005. pp. 1517–152.
38. Meral H.M., Ekenel H.K., Ozsoy A. Analysis of emotion in Turkish // XVII National Conference on Turkish Linguistics. 2003.
39. Брызгунова E.A. Звуки и интонация в русской речи // Москва: Русский язык. 1977. 281 с.
40. Anikin A., Lima C.F. Perceptual and acoustic differences between authentic and acted nonverbal emotional vocalizations // The Quarterly Journal of Experimental Psychology. 2017. pp. 1–21.
41. Kaya H., Salah A.A., Gurgen S.F., Ekenel H. Protocol and baseline for experiments on Bogazici University Turkish emotional speech corpus // 22nd Signal Processing and Communications Applications Conference (SIU). 2014. pp. 1698–1701.
42. Koolagudi S.G., Murthy Y.S., Bhaskar S.P. Choice of a classifier, based on properties of a dataset: case study-speech emotion recognition // International Journal of Speech Technology. 2018. vol. 21. no. 1. pp. 167–183.
43. Kaya H., Karpov A.A., Salah A.A. Robust acoustic emotion recognition based on cascaded normalization and extreme learning machines // Proc. International Symposium on Neural Networks (ISNN-2016). LNCS 9719. 2016. pp. 115–123.
44. Montacié C., Caraty M.J. Vocalic, lexical and prosodic cues for the INTERSPEECH 2018 self-assessed affect challenge // Proc. INTERSPEECH. 2018. pp. 541–545.
45. Besacier L., Barnard E., Karpov A., Schultz T. Automatic speech recognition for under-resourced languages: A survey // Speech Communication. 2014. vol. 56. pp. 85–100.
46. Kipyatkova I., Karpov A. A Study of Neural Network Russian Language Models for Automatic Continuous Speech Recognition Systems // Automation and Remote Control. 2017. vol. 78. no. 5. pp. 858–867.
Опубликован
Как цитировать
Раздел
Copyright (c) 2019 Оксана Владимировна Верхоляк, Хейсем Кайя, Алексей Анатольевич Карпов
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).