Многозначная классификация текстовых документов с использованием вероятностного тематического моделирования ml-PLSI
Ключевые слова:
многозначная (нечеткая) классификация, обучение с учителем, тематическое моделирование, обработка текста на естественном языкеАннотация
В работе рассмотрен подход к многозначной классификации текстовых документов на основе вероятностного тематического моделирования. На базе корпуса SCTM-ru построена тематическая модель методом обучения с учителем, приведен алгоритм многозначной классификации. Описан состав программного прототипа, реализующего предложенный подход.Литература
1. Журавлёв Ю.И., и др. Задачи распознавания и классификации со стандартной обучающей информацией // Журнал вычислительной математики и математической физики. 1980. Вып. 20. № 5. С. 1294–1309.
2. Tsoumakas G., Katakis I. Multi-label classification: an overview // International Journal of Data Warehousing & Mining. 2007. vol. 3(3). pp. 1–13.
3. Daud A. et al. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of computer science in China. 2010. vol. 4. no. 2. pp. 280–301.
4. Ramage D., Hall D., Nallapati R., Manning C. D. Labeled lda: a supervised topic model for credit attribution in multi-labeled corpora // Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. USA. 2009. vol. 1. pp. 248–256.
5. Rubin T.N., Chambers A., Smyth P., Steyvers M. Statistical topic models for multilabel document classification // Machine Learning. 2012. vol. 88. no. 1–2. pp. 157–208.
6. Padmanabhan D. et al. Topic Model Based Multi-Label Classification from the Crowd // arXiv preprint arXiv:1604.00783. 2016.
7. Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. 2013. Вып. 1. № 6. С. 657‒686.
8. Hoffman T. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999. pp. 50‒57.
9. Воронцов К.В., Потапенко А.А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование. 2012. Вып. 4. № 4. С. 693–706.
10. Blei D., McAuliffe J. Supervised topic models //Advances in neural information processing systems. 2008. vol. 20. pp. 121–128.
11. Плохотнюк В.С. Аксиоматизация семиологии и научный статус семиотики // Terra economicus. 2010. Вып. 8(4). С. 124–132.
12. Карпович С.Н. Русскоязычный корпус текстов SCTM-RU для построения тематических моделей // Труды СПИИРАН. 2015. Вып. 39. С 123‒142.
13. Blei D., Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research // MIT Press. 2003. vol. 3(Jan). pp. 993‒1002.
14. Городецкий В.И., Тушканова О.Н. Ассоциативная классификация: аналитический обзор. Часть 1 // Труды СПИИРАН. 2015. Вып. 1(38). С 183‒203.
15. Городецкий В.И., Тушканова О.Н. Ассоциативная классификация: аналитический обзор. Часть 2. // Труды СПИИРАН. 2015. Вып. 2(39). С 212‒240.
16. Городецкий В.И., Серебряков С.В. Методы и алгоритмы коллективного распознавания // Труды СПИИРАН. 2006. №3. С 139‒171.
2. Tsoumakas G., Katakis I. Multi-label classification: an overview // International Journal of Data Warehousing & Mining. 2007. vol. 3(3). pp. 1–13.
3. Daud A. et al. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of computer science in China. 2010. vol. 4. no. 2. pp. 280–301.
4. Ramage D., Hall D., Nallapati R., Manning C. D. Labeled lda: a supervised topic model for credit attribution in multi-labeled corpora // Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. USA. 2009. vol. 1. pp. 248–256.
5. Rubin T.N., Chambers A., Smyth P., Steyvers M. Statistical topic models for multilabel document classification // Machine Learning. 2012. vol. 88. no. 1–2. pp. 157–208.
6. Padmanabhan D. et al. Topic Model Based Multi-Label Classification from the Crowd // arXiv preprint arXiv:1604.00783. 2016.
7. Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. 2013. Вып. 1. № 6. С. 657‒686.
8. Hoffman T. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999. pp. 50‒57.
9. Воронцов К.В., Потапенко А.А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование. 2012. Вып. 4. № 4. С. 693–706.
10. Blei D., McAuliffe J. Supervised topic models //Advances in neural information processing systems. 2008. vol. 20. pp. 121–128.
11. Плохотнюк В.С. Аксиоматизация семиологии и научный статус семиотики // Terra economicus. 2010. Вып. 8(4). С. 124–132.
12. Карпович С.Н. Русскоязычный корпус текстов SCTM-RU для построения тематических моделей // Труды СПИИРАН. 2015. Вып. 39. С 123‒142.
13. Blei D., Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research // MIT Press. 2003. vol. 3(Jan). pp. 993‒1002.
14. Городецкий В.И., Тушканова О.Н. Ассоциативная классификация: аналитический обзор. Часть 1 // Труды СПИИРАН. 2015. Вып. 1(38). С 183‒203.
15. Городецкий В.И., Тушканова О.Н. Ассоциативная классификация: аналитический обзор. Часть 2. // Труды СПИИРАН. 2015. Вып. 2(39). С 212‒240.
16. Городецкий В.И., Серебряков С.В. Методы и алгоритмы коллективного распознавания // Труды СПИИРАН. 2006. №3. С 139‒171.
Опубликован
2016-08-01
Как цитировать
Карпович, С. Н. (2016). Многозначная классификация текстовых документов с использованием вероятностного тематического моделирования ml-PLSI. Труды СПИИРАН, 4(47), 92-104. https://doi.org/10.15622/sp.47.5
Раздел
Методы управления и обработки информации
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).