Разработка и исследование предметно независимого классификатора текстов по тональности
Ключевые слова:
анализ тональности текстов, машинное обучение, классификация текстов, автоматическая классификация, извлечение классификационных признаковАннотация
В статье представляется метод построения классификатора для классификации текстов по тональности на два и на три класса (положительные и негативные; положительные, нейтральные и негативные тексты). Представляются результаты экспериментов, показывающие высокую точность работы метода не зависимо от предметной области к которой принадлежит текст. Эффективность представленного метода подтверждается экспериментами на текстовой коллекции блогов с разметкой по оценочной тональности семинара РОМИП-2012. Для оценки используются метрики: precision, recall, accuracy и F-меры. Значение F-меры для предлагаемого метода при классификации на 2 класса составляет 93%. Помимо блоговой коллекции РОМИП-2012, используются коллекция новостей и коллекция текстов социальных сетей.
Литература
2. Pang B., Lee L. Thumbs up? Sentiment classification using machine learning techniques // Proc. of the Conference on Empirical Methods in Natural Language Processing (EMNLP). Philadelphia: ACL. 2002. pp. 79–86.
3. Pang B., Lee L. Seeing stars: exploiting class relationships for sentiment categorization with respect of rating scales // Proc. of ACL, 43rd Meeting of the Association for Computational Linguistics. Ann Arbor: ACM. 2005. pp. 115–124.
4. Bespalov D., Bai B., Qi Y., Shokoufandeh A. Sentiment classification based on supervised latent n-gram analysis. In Proceedings of the 20th ACM international conference on Information and knowledge management (CIKM '11). ACM. New York. NY. USA. 2011. pp. 375–382.
5. Nguyen D.Q., Nguyen D.Q., Vu T., Pham S.B. Sentiment classification on polarity reviews: an empirical study using rating-based features // In: 5th Workshop on Computational Approaches to Subjectivity, Sentiment & Social Media Analysis. Baltimore, Md. 2014. pp. 128–135
6. Cui H., Mittal V., Datar M. Comparative experiments on sentiment classification for online product reviews // In proceedings of the 21st national conference on Artificial intelligence. AAAI Press. 2006. vol. 2. pp. 1265–1270.
7. The Streaming APIs. URL: https://dev.twitter.com/docs/streaming-apis (дата обращения: 28.10.2014).
8. Reed J.W., Jiao Y., Potok T.E., Klump B.A., Elmore M.T., Hurson A.R. TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams // In: Proc. Machine Learning and Applications (ICMLA '06). 2006. pp. 258–263.
9. Рубцова Ю.В. Метод построения и анализа корпуса коротких текстов для задачи классификации отзывов // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XV Всероссийской научной конференции RCDL’2013. Ярославль. 2013. С. 269–275.
10. Kechedzhy K. E., Usatenko O.V., Yampol'skii V. A. Rank distributions of words in additive many-step Markov chains and the Zipf law Arxiv LANL // Phys. Rev. E. 2005. vol. 72. pp. 046138(1)–046138(6).
11. Manning D., Raghavan P., Schutze H. Introduction to Information Retrieval // Cambridge University Press. 2008.
12. Lan M., Tan C.L., Su J., Lu Y. Supervised and Traditional Term Weighting Methods for Automatic Text Categorization // IEEE Transactions on Pattern Analysis and Machine Intelligence. vol. 31. no. 4. 2009. pp. 721–735.
13. Schmid H. Probabilistic part-of-speech tagging using decision trees // In Proc. of the International Conference on New Methods in Language Processing. 1994. pp. 44–49.
14. Коллекция текстов из блогов с разметкой по оценочной тональности и объектам. URL: http://romip.ru/ru/collections/sentiment-blog-collection-2012.html.
15. Joachims T. Text categorization with support vector machines: Learning with many relevant features // In Proc. of the European Conference on Machine Learning (ECML 1998). 1998. pp. 137–142.
16. Sebastiani F. Machine Learning in Automated Text Categorization. ACM Computing Surveys. vol. 34. no. 1. March 2002. pp. 1–47.
17. Fan R.-E. , Chang K.-W., Hsieh C.-J., Wang X.-R., Lin C.-J. LIBLINEAR: a Library for Large Linear Classification // J. of Machine Learning Research. 2008. vol. 9. pp. 1871–1874.
18. Liu Y., Loh H.T., Sun A. Imbalanced text classification: A term weighting approach // Expert systems with Applications. 2009. vol. 36. no. 1. pp. 690-701.
19. Wang D., Zhang H. Inverse-category-frequency based supervised term weighting scheme for text categorization //arXiv preprint arXiv: 1012.2609. 2010.
20. Olson David L. and Delen Dursun. Advanced Data Mining Techniques (1st edition) // Springer. 2008. 138 p.