Обнаружение иронии на основе семантической близости
Ключевые слова:
семантическая близость, обнаружение иронии, разрешение лексической неоднозначности, алгоритм Леска, NGD,Аннотация
Цель данной работы – предложить алгоритм, использующий свойства семантической близости и позволяющий автоматически определить, употреблено ли слово с иронией или в прямом смысле. Сделан обзор предыдущих подходов к данной проблеме. Сформулировано определение понятию «ирония». Собраны две коллекции, одна из которых содержит высказывания со словами, употребленными с иронией, а вторая – с теми же словами, употребленными в буквальном смысле. Исследованы и проведены эксперименты над разными способами измерения семантической близости. Предложен алгоритм для обнаружения иронии, позволяющий автоматически определить, употреблено ли слово с иронией или в прямом смысле.Литература
Винокур Г.О., Ларин Б.А., Ожегов С.И., Томашевский Б.В., Ушаков Д.Н. Толковый словарь русского языка: В 4 т.
Дынник В. Ирония // Литературная энциклопедия: В 11 т. Т. 4. М.: Изд-во Ком. Акад., 1930. С. 571–580
Торсуева И.Г. Лингвистический энциклопедический словарь. М.: СЭ, 1990. С. 238–239
Amazon.com – Электронный ресурс: http://www.amazon.com/ (доступ 27.01.2013)
Argamon S., Koppel M., Pennebaker J. W., Schler J. Automatically profiling the author of an anonymous text. Commun. ACM, 52. 2009. P. 119–123
Agirre E., Edmonds Ph. Word Sense Disambiguation. Algorithms and Applications // Text, Speech and Language Technology. V. 33, 2006
Birke J., Sarkar An. A Clustering Approach for the Nearly Unsupervised Recognition of Nonliteral Language // Proceedings of EACL-06. 2006
Bogdanova D. A Framework for Figurative Language Detection Based on Sense Differentiation // Association for Computational Linguistics. V. 7. 2010. P. 67–72
British National Corpus – Электронный ресурс: http://corpus.byu.edu/bnc/ (доступ 27.01.2013)
Burfoot C., Baldwin T. Automatic satire detection: Are you having a laugh? // ACL-IJCNLP’09: Proceedings of the ACL-IJCNLP 2009 Conference Short Papers. 2009. P. 161–164
Carvalho P., Sarmento L., Silva M., de Oliveira E. Clues for detecting irony in user-generated contents: oh...!! it’s so easy” ;-) // TSA'09: Proceeding of the 1st international CIKM workshop on Topicsentiment analysis for mass opinion. 2009. P. 53–56
Cilibrasi R., Vitanyi M.B. Automatiс Meaning Discovery Using Google // Kolmogorov Complexity and Applications Proceedings. 2006
Cilibrasi R., Vitanyi M.B. Automatiс The Google Similarity // IEEE Transactions on Knowledge and Data Engineering. Vol. 19. No 3. 2007. P. 370–383
Dave K., Lawrence S., Pennock D.M. Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews // Proc. 12th Int’l World Wide Web Conf. 2003
González-Ibáñez R., Meresan S., Wacholder N. Identifying Sarcasm in Twitter: A Closer Look // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: shortpapers. 2011. P. 581–586
Google – Электронный ресурс: http://www.google.ru/ (доступ 27.01.2013)
Google Books – Электронный ресурс: http://books.google.com/ (доступ 27.01.2013)
Hao Y., Veale T. An Ironic Fist in a Velvet Glove: Creative Mis-Representation in the Construction of Ironic Similes // Journal of Minds and Machines, V. 20 (4). 2010. P. 635–650
Hassan S., Mihalcea R. Semantic Relatedness Using Salient Semantic Analysis // Proceedings of the American Association for Artificial Intelligence (AAAI 2011). San Francisco. 2011
Kilgarriff A., Rosenzweig J. English SENSEVAL:Report and Results // Proceedings of the 2nd International Conference on Language Resources and Evaluation. 2000. P. 1239–1244
Kreuz R., Caucci G. Lexical Influences on the Perception of Sarcasm // Proceedings of the Workshop on Computational Approaches to Figurative Language. 2007. P. 1–4
Lesk M. Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone // SIGDOC '86: Proceedings of the 5th annual international conference on Systems documentation. 1986. P. 24–26
Mihalcea R., Strapparava C. Learning to Laugh (Automatically): Computational Models for Humor Recognition // Journal of Computational Intelligence. V. 22(2). P. 126–142
Mihalcea R., Pulman St. Characterizing Humour: An Exploration of Features in Humorous Texts // Proceedings of the Conference on Computational Linguistics and Intelligent Text Processing (CICLing). Springer. Mexico City. 2007
Mihalcea R., Pulman St. Computing Word-Pair Antonymy // Proceedings of the Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning(EMNLP-2008). 2008
Morinaga S., Yamanishi K., Tateishi K., Fukushima T. Mining Product Reputations on the Web // Proc. Eighth ACM SIGKDD Int’l Conf. Knowledge Discovery and Data Mining, 2002. P. 341–349
Open Mind Common Sense – Электронный ресурс: http://openmind.media.mit.edu/ (доступ 27.01.2013)
Pang B., Lee L. Opinion Mining and Sentiment Analysis // Foundations and Trends in Information Retrieval. Vol. 2, No 1-2. 2008. P. 1–135
Patwardhan S., Banerjee S., Pedersen T. Using Measures of Semantic Relatedness for Word Sense Disambiguation // Proceedings of the Fourth International Conference on Intelligent Text Processing and Computational Linguistics. 2003. P. 241–257
Porter Stemmer – Электронный ресурс: http://qaa.ath.cx/porter_js_demo.html (доступ 27.01.2013)
Reyes A., Rosso P. Mining Subjective Knowledge from Customer Reviews:A Specific Case of Irony Detection // Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment Analysis (ACL-HLT 2011). 2011. P. 118–124
Reuters – Электронный ресурс: http://www.reuters.com/ (доступ 27.01.2013)
Schutze H. Automatic word sense discrimination // Computational Linguistics. V. 24(1). 1998. P. 97–123
Slashdot – Электронный ресурс: http://slashdot.org/ (доступ 27.01.2013)
Sperber D., Wilson D. On verbal irony // Lingua. V. 87. 1992. P. 53–76
Thesaurus – Электронный ресурс: http://thesaurus.com/ (доступ 27.01.2013)
Thesaurus – Электронный ресурс: http://thesaurus.com/ (доступ 27.01.2013) ICWSM — A Great Catchy Name: Semi-Supervised Recognition of Sarcastic Sentences in Online Product Reviews // Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. 2010. P. 162–169
Twitter – Электронный ресурс: http://twitter.com/ (доступ 27.01.2013)
Utsumi A. A unified theory of irony and its computational formalization // Proceedings of the 16th conference on Computational Linguistics. 1996. P. 962– 967
Utsumi A. Verbal irony as implicit display of ironic environment: Distinguishing ironic utterances from nonirony // Journal of Pragmatics. V. 32(12). P. 1777–1806
Veale T., Hao Y. Detecting Ironic Intent in Creative Comparisons // Proceedings of the 2010 conference on ECAI 2010: 19th European Conference on Artificial Intelligence. 2010. P. 765–770
The Wall Street Journal – Электронный ресурс: http://europe.wsj.com/home-page/ (доступ 27.01.2013)
Yi J., Nasukawa T., Bunescu R., Niblack W. Sentiment Analyzer: Extracting Sentiments about a Given Topic Using Natural Language Processing Techniques // Proc. Third IEEE Int’l Conf. Data Mining. 2003. P. 427–434
Дынник В. Ирония // Литературная энциклопедия: В 11 т. Т. 4. М.: Изд-во Ком. Акад., 1930. С. 571–580
Торсуева И.Г. Лингвистический энциклопедический словарь. М.: СЭ, 1990. С. 238–239
Amazon.com – Электронный ресурс: http://www.amazon.com/ (доступ 27.01.2013)
Argamon S., Koppel M., Pennebaker J. W., Schler J. Automatically profiling the author of an anonymous text. Commun. ACM, 52. 2009. P. 119–123
Agirre E., Edmonds Ph. Word Sense Disambiguation. Algorithms and Applications // Text, Speech and Language Technology. V. 33, 2006
Birke J., Sarkar An. A Clustering Approach for the Nearly Unsupervised Recognition of Nonliteral Language // Proceedings of EACL-06. 2006
Bogdanova D. A Framework for Figurative Language Detection Based on Sense Differentiation // Association for Computational Linguistics. V. 7. 2010. P. 67–72
British National Corpus – Электронный ресурс: http://corpus.byu.edu/bnc/ (доступ 27.01.2013)
Burfoot C., Baldwin T. Automatic satire detection: Are you having a laugh? // ACL-IJCNLP’09: Proceedings of the ACL-IJCNLP 2009 Conference Short Papers. 2009. P. 161–164
Carvalho P., Sarmento L., Silva M., de Oliveira E. Clues for detecting irony in user-generated contents: oh...!! it’s so easy” ;-) // TSA'09: Proceeding of the 1st international CIKM workshop on Topicsentiment analysis for mass opinion. 2009. P. 53–56
Cilibrasi R., Vitanyi M.B. Automatiс Meaning Discovery Using Google // Kolmogorov Complexity and Applications Proceedings. 2006
Cilibrasi R., Vitanyi M.B. Automatiс The Google Similarity // IEEE Transactions on Knowledge and Data Engineering. Vol. 19. No 3. 2007. P. 370–383
Dave K., Lawrence S., Pennock D.M. Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews // Proc. 12th Int’l World Wide Web Conf. 2003
González-Ibáñez R., Meresan S., Wacholder N. Identifying Sarcasm in Twitter: A Closer Look // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: shortpapers. 2011. P. 581–586
Google – Электронный ресурс: http://www.google.ru/ (доступ 27.01.2013)
Google Books – Электронный ресурс: http://books.google.com/ (доступ 27.01.2013)
Hao Y., Veale T. An Ironic Fist in a Velvet Glove: Creative Mis-Representation in the Construction of Ironic Similes // Journal of Minds and Machines, V. 20 (4). 2010. P. 635–650
Hassan S., Mihalcea R. Semantic Relatedness Using Salient Semantic Analysis // Proceedings of the American Association for Artificial Intelligence (AAAI 2011). San Francisco. 2011
Kilgarriff A., Rosenzweig J. English SENSEVAL:Report and Results // Proceedings of the 2nd International Conference on Language Resources and Evaluation. 2000. P. 1239–1244
Kreuz R., Caucci G. Lexical Influences on the Perception of Sarcasm // Proceedings of the Workshop on Computational Approaches to Figurative Language. 2007. P. 1–4
Lesk M. Automatic sense disambiguation using machine readable dictionaries: how to tell a pine cone from an ice cream cone // SIGDOC '86: Proceedings of the 5th annual international conference on Systems documentation. 1986. P. 24–26
Mihalcea R., Strapparava C. Learning to Laugh (Automatically): Computational Models for Humor Recognition // Journal of Computational Intelligence. V. 22(2). P. 126–142
Mihalcea R., Pulman St. Characterizing Humour: An Exploration of Features in Humorous Texts // Proceedings of the Conference on Computational Linguistics and Intelligent Text Processing (CICLing). Springer. Mexico City. 2007
Mihalcea R., Pulman St. Computing Word-Pair Antonymy // Proceedings of the Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning(EMNLP-2008). 2008
Morinaga S., Yamanishi K., Tateishi K., Fukushima T. Mining Product Reputations on the Web // Proc. Eighth ACM SIGKDD Int’l Conf. Knowledge Discovery and Data Mining, 2002. P. 341–349
Open Mind Common Sense – Электронный ресурс: http://openmind.media.mit.edu/ (доступ 27.01.2013)
Pang B., Lee L. Opinion Mining and Sentiment Analysis // Foundations and Trends in Information Retrieval. Vol. 2, No 1-2. 2008. P. 1–135
Patwardhan S., Banerjee S., Pedersen T. Using Measures of Semantic Relatedness for Word Sense Disambiguation // Proceedings of the Fourth International Conference on Intelligent Text Processing and Computational Linguistics. 2003. P. 241–257
Porter Stemmer – Электронный ресурс: http://qaa.ath.cx/porter_js_demo.html (доступ 27.01.2013)
Reyes A., Rosso P. Mining Subjective Knowledge from Customer Reviews:A Specific Case of Irony Detection // Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment Analysis (ACL-HLT 2011). 2011. P. 118–124
Reuters – Электронный ресурс: http://www.reuters.com/ (доступ 27.01.2013)
Schutze H. Automatic word sense discrimination // Computational Linguistics. V. 24(1). 1998. P. 97–123
Slashdot – Электронный ресурс: http://slashdot.org/ (доступ 27.01.2013)
Sperber D., Wilson D. On verbal irony // Lingua. V. 87. 1992. P. 53–76
Thesaurus – Электронный ресурс: http://thesaurus.com/ (доступ 27.01.2013)
Thesaurus – Электронный ресурс: http://thesaurus.com/ (доступ 27.01.2013) ICWSM — A Great Catchy Name: Semi-Supervised Recognition of Sarcastic Sentences in Online Product Reviews // Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. 2010. P. 162–169
Twitter – Электронный ресурс: http://twitter.com/ (доступ 27.01.2013)
Utsumi A. A unified theory of irony and its computational formalization // Proceedings of the 16th conference on Computational Linguistics. 1996. P. 962– 967
Utsumi A. Verbal irony as implicit display of ironic environment: Distinguishing ironic utterances from nonirony // Journal of Pragmatics. V. 32(12). P. 1777–1806
Veale T., Hao Y. Detecting Ironic Intent in Creative Comparisons // Proceedings of the 2010 conference on ECAI 2010: 19th European Conference on Artificial Intelligence. 2010. P. 765–770
The Wall Street Journal – Электронный ресурс: http://europe.wsj.com/home-page/ (доступ 27.01.2013)
Yi J., Nasukawa T., Bunescu R., Niblack W. Sentiment Analyzer: Extracting Sentiments about a Given Topic Using Natural Language Processing Techniques // Proc. Third IEEE Int’l Conf. Data Mining. 2003. P. 427–434
Опубликован
2013-02-01
Как цитировать
Торопова, А. В. (2013). Обнаружение иронии на основе семантической близости. Труды СПИИРАН, 1(24), 178-193. https://doi.org/10.15622/sp.24.12
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).