Метод распознавания сентимента и эмоций в транскрипциях русскоязычной речи с использованием машинного перевода
Ключевые слова:
машинный перевод, тональные словари, распознавание эмоций, сентимент-анализ, тональные вектораАннотация
В статье рассматривается проблема распознавания сентимента и эмоций пользователей в русскоязычных текстовых транскрипциях речи с использованием словарных методов и машинного перевода. Количество имеющихся информационных ресурсов для анализа сентимента текстовых сообщений на русском языке очень ограничено, что существенно затрудняет применение базовых методов анализа сентимента, а именно, предобработки текстов, векторизации с помощью тональных словарей, традиционных классификаторов. Для решения этой проблемы в статье вводится новый метод на основе автоматического машинного перевода русскоязычных текстов на английский язык. Частичный перевод предполагает перевод отдельных лексем, не включенных в русскоязычные тональные словари, тогда как полный перевод подразумевает перевод всего текста целиком. Переведенный текст анализируется с использованием различных англоязычных тональных словарей. Экспериментальные исследования для решения задачи распознавания сентимента и эмоций были проведены на текстовых транскрипциях многомодального русскоязычного корпуса RAMAS, извлеченных из аудиоданных экспертным путем и автоматически с использованием системы распознавания речи. В результате применения методов машинного перевода достигается значение взвешенной F-меры распознавания семи классов эмоций 31,12 % и 23,74 %, и трех классов сентимента 75,37 % и 71,60 % для экспертных и автоматических транскрипций русскоязычной речи корпуса RAMAS, соответственно. Также в ходе экспериментов было выявлено, что использование статистических векторов в качестве метода преобразования текстовых данных позволяет достичь значение показателя взвешенной F-меры на 1-5 % выше по сравнению с использованием конкатенированного (статистического и тонального) вектора. Таким образом, эксперименты показывают, что объединение всех англоязычных тональных словарей позволяет повысить точность распознавания сентимента и эмоций в текстовых данных. В статье также исследуется корреляция между длиной вектора текстовых данных и его репрезентативностью. По результатам экспериментов можно сделать вывод, что использование лемматизации для нормализации слов текстовых транскрипций речи позволяет достичь большей точности распознавания сентимента по сравнению со стеммингом. Использование предложенных методов с полным и частичным машинным переводом позволяет повысить точность распознавания сентимента и эмоций на 0,65–9,76 % по показателю взвешенной F-меры по сравнению с базовым методом распознавания сентимента и эмоций.
Литература
2. Carosia A.E.O., Coelho G.P., Silva A.E.A. Analyzing the Brazilian financial market through portuguese sentiment analysis in social media // Applied Artificial Intelligence. 2020. vol. 34. no. 1. pp. 1–19.
3. Smetanin S. The applications of sentiment analysis for Russian language texts: Current challenges and future perspectives // IEEE Access. 2020. vol. 8. pp. 110693–110719. DOI: 10.1109/ACCESS.2020.3002215.
4. Карпов А.А., Юсупов Р.М. Многомодальные интерфейсы человеко-машинного взаимодействия // Вестник Российской академии наук. 2018. Т. 88. № 2. С. 146–155.
5. Dvoynikova A., Verkholyak O., Karpov A. Analytical review of methods for identifying emotions in text data // CEUR-WS. 2020. vol. 2552. pp. 8–21.
6. Ekman P. An Argument for Basic Emotions // Cognition and Emotion. 1992. vol. 6(3-4). pp. 169–200.
7. Dvoynikova A., Karpov A. Bimodal sentiment and emotion classification with multi-head attention fusion of acoustic and linguistic information // Computational Linguistics and Intellectual Technologies. 2023. vol. 22. pp. 51–61.
8. Viksna R., Jekabsons G. Sentiment analysis in Latvian and Russian: A survey // Applied Computer Systems. 2018. vol. 23. no. 1. pp. 45–51.
9. Loukachevitch N., Levchik A. Creating a general Russian sentiment lexicon // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). 2016. pp. 1171–1176.
10. Demirtas E., Pechenizkiy M. Cross-lingual polarity detection with machine translation // Proceedings of the Second International Workshop on Issues of Sentiment Discovery and Opinion Mining. 2013. pp. 1–8.
11. Reichel J., Benko Ľ. The Influence of a Machine Translation System on Sentiment Levels // RASLAN 2022 Recent Advances in Slavonic Natural Language Processing. 2022. pp. 201–208.
12. Zygadlo A., Kozlowski M., Janicki A. Text-Based emotion recognition in English and Polish for therapeutic chatbot // Applied Sciences. 2021. vol. 11(21). no. 10146.
13. Nandwani P., Verma R. A review on sentiment analysis and emotion detection from text // Social Network Analysis and Mining. 2021. vol. 11(1). no. 81.
14. Hartung K., Herygers A., Kurlekar S.V., Zakaria K., Volkan T., Gröttrup S., Georges M. Measuring Sentiment Bias in Machine Translation // International Conference on Text, Speech, and Dialogue. 2023. pp. 82–93.
15. Двойникова А.А. Сентимент-анализ транскрипции разговорной речи при помощи автоматического машинного перевода // Сборник трудов IX Конгресса молодых ученых. 2021. C. 199–203.
16. Perepelkina O., Kazimirova E., Konstantinova M. RAMAS: Russian Multimodal Corpus of Dyadic Interaction for studying emotion recognition // PeerJ Preprints. 2018. vol. 6. no. e26688v1.
17. Russell J.A. A circumplex model of affect // Journal of personality and social psychology. 1980. vol. 39. no. 6. pp. 1161–1178.
18. Плунгян В.А. Введение в грамматическую семантику: Грамматические значения и грамматические системы языков мира // М.: РГГУ. 2011. 672 c.
19. Goddard C., Wierzbicka A. Semantic and Lexical Universals // Studies in Second Language Acquisition, 1996. vol. 18(4). 520 p.
20. Котельников Е.В., Разова Е.В., Котельникова А.В., Вычегжанин С.В. Современные словари оценочной лексики для анализа мнений на русском и английском языках (аналитический обзор) // Научно-техническая информация. Серия. 2020. Т. 2. С. 16–33.
21. Hercig T., Brychcín T., Svoboda L., Konkol M. Uwb at semeval-2016 task 5: Aspect based sentiment analysis // Proceedings of the 10th international workshop on semantic evaluation (SemEval-2016). 2016. pp. 342–349.
22. Koltsova O.Y., Alexeeva S., Kolcov S. An opinion word lexicon and a training dataset for Russian sentiment analysis of social media // Computational Linguistics and Intellectual Technologies. 2016. vol. 15. pp. 277–287.
23. Strapparava C., Valitutti A. Wordnet affect: an affective extension of wordnet // Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC). 2004. pp. 1083–1086.
24. Mohammad S.M., Turney D.P. Crowdsourcing a word-emotion association lexicon // Computational Intelligence. 2013. vol. 29(3). pp. 436–465.
25. Hu M., Liu B. Mining and summarizing customer reviews // Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 2004. pp. 168–177.
26. Hutto C., Gilbert E. Vader: A parsimonious rule-based model for sentiment analysis of social media text // Proceedings of the international AAAI conference on web and social media. 2014. vol. 8. no. 1. pp. 216–225.
Опубликован
Как цитировать
Раздел
Copyright (c) Анастасия Александровна Двойникова, Ильдар Амирович Кагиров, Алексей Анатольевич Карпов
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).