Русскоязычный корпус текстов SCTM-ru для построения тематических моделей
Ключевые слова:
корпус текстов, обработка текста на естественном языке, тематическое моделирование, русский языкАннотация
В статье рассматривается задача создания русскоязычного специального корпуса текстов для тестирования алгоритмов вероятностного тематического моделирования. В качестве наполнения корпуса предлагается использовать статьи международного новостного сайта «Русские Викиновости», распространяемого по свободной лицензии CC BY 2.5. Описан этап предварительной обработки и разметки корпуса текстов. Предложена разметка корпуса текстов, содержащая только необходимую в алгоритмах тематического моделирования информацию.
Литература
1. Papadimitriou C.H., Raghavan P., Tamaki H., Vempala S. Latent semantic indexing: A probabilistic analysis. 1998.
2. Hoffman T. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999.
3. Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003.
4. Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // In Proceedings of Frontiers of Computer Science in China. 2010. pp. 280–301.
5. Сайт Национального корпуса русского языка НКРЯ. URL: www.ruscorpora.ru. (дата обращения: 12.01.2015).
6. Захаров В.П. Международные стандарты в области корпусной лингвистики // // Структурная и прикладная лингвистика. 2012. № 9. С. 201–221.
7. Крижановский А.А., Смирнов А.В. Подход к автоматизированному построению общецелевой лексической онтологии на основе данных викисловаря // Известия РАН. Теория и системы управления. 2013. № 2. С. 53–63.
8. Смирнов А.В., Круглов В.М., Крижановский А.А., Луговая Н.Б., Карпов А.А., Кипяткова И.С. Количественный анализ лексики русского WordNet и викисловарей // Труды СПИИРАН. 2012. Вып. 23. С. 231–253.
9. Грановский Д.В., Бочаров В.В., Бичинева С.В. Открытый корпус: принципы работы и перспективы // Компьютерная лингвистика и развитие семантического поиска в Интернете: Труды научного семинара XIII Всероссийской объединенной конференции «Интернет и современное общество». Санкт-Петербург. 2010 г. СПб. 2010. 94 с.
10. Сайт Открытого корпуса. URL: opencorpora.org (дата обращения: 10.01.2015).
11. Small corpus of Associated Press. URL: www.cs.princeton.edu/~blei/lda-c/ (дата обращения: 06.01.2015).
12. The New York Times Annotated Corpus. URL: catalog.ldc.upenn.edu/LDC2008T19 (дата обращения: 14.01.2015).
13. The 20 Newsgroups data set. URL: qwone.com/~jason/20Newsgroups/ (дата обращения: 24.01.2015).
14. Reuters Corpora. URL: trec.nist.gov/data/reuters/reuters.html (дата обращения: 24.01.2015).
15. Reuters-21578 Text Categorization Collection Data Set. URL: archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection (дата обращения: 24.01.2015).
16. Виноградова В.Б., Кукушкина О.В., Поликарпов А.А., Савчук С.О.. Компьютерный корпус текстов русских газет конца 20-го века: создание, категоризация, автоматизированный анализ языковых особенностей // "Русский язык: исторические судьбы и современность" Международный конгресс русистов-исследователей. Труды и материалы. М.: Изд-во Моск. ун-та. 2001. С. 114–115.
17. Компьютерный корпус текстов русских газет конца XX-ого века. URL: www.philol.msu.ru/~lex/corpus/corp_descr.html (дата обращения: 24.01.2015)
18. Венцов А.В., Грудева Е.В. О корпусе русского литературного языка (narusco.ru) // Русская Лингвистика. 2009. Том 33. № 2. С. 195–209.
19. Корпус русского литературного языка. URL: www.narusco.ru (дата обращения: 24.01.2015).
20. Хельсинкский аннотированный корпус русских текстов ХАНКО. URL: www.helsinki.fi/venaja/russian/e-material/hanco/index.htm (дата обращения: 24.01.2015).
21. Официальный сайт программы морфологического анализа текстов на русском языке MyStem. URL: api.yandex.ru/mystem/ (дата обращения: 12.12.2014).
22. Xu S., Shi Q., Qiao X., et al. Author-Topic over Time (AToT): a dynamic users’ interest model, in Mobile, Ubiquitous, and Intelligent Computing // Springer. Berlin. 2014. pp. 239–245.
23. Ramage D., Hall D., Nallapati R., Manning C.D. Labeled LDA. A supervised topic model for credit attribution in multi-labeled corpora // In Empirical Methods in Natural Language Processing. 2009. pp. 248–256.
24. Wang X., McCallum A. Topics over Time: A Non-Markov Continuous Time Model of Topical Trends // In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Philadelphia. USA. 2006.
25. Gruber A., Rosen-Zvi M., Weiss Y. Hidden Topic Markov Models. In: Proceedings of Artificial Intelligence and Statistics (AISTATS) // San Juan. Puerto Rico. USA. 2007.
26. Захаров В.П., Азарова И.В.. Параметризация специальных корпусов текстов // Структурная и прикладная лингвистика: Межвузовский сборник. СПб: СПбГУ. 2012. Вып. 9. С. 176–184.
2. Hoffman T. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999.
3. Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003.
4. Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // In Proceedings of Frontiers of Computer Science in China. 2010. pp. 280–301.
5. Сайт Национального корпуса русского языка НКРЯ. URL: www.ruscorpora.ru. (дата обращения: 12.01.2015).
6. Захаров В.П. Международные стандарты в области корпусной лингвистики // // Структурная и прикладная лингвистика. 2012. № 9. С. 201–221.
7. Крижановский А.А., Смирнов А.В. Подход к автоматизированному построению общецелевой лексической онтологии на основе данных викисловаря // Известия РАН. Теория и системы управления. 2013. № 2. С. 53–63.
8. Смирнов А.В., Круглов В.М., Крижановский А.А., Луговая Н.Б., Карпов А.А., Кипяткова И.С. Количественный анализ лексики русского WordNet и викисловарей // Труды СПИИРАН. 2012. Вып. 23. С. 231–253.
9. Грановский Д.В., Бочаров В.В., Бичинева С.В. Открытый корпус: принципы работы и перспективы // Компьютерная лингвистика и развитие семантического поиска в Интернете: Труды научного семинара XIII Всероссийской объединенной конференции «Интернет и современное общество». Санкт-Петербург. 2010 г. СПб. 2010. 94 с.
10. Сайт Открытого корпуса. URL: opencorpora.org (дата обращения: 10.01.2015).
11. Small corpus of Associated Press. URL: www.cs.princeton.edu/~blei/lda-c/ (дата обращения: 06.01.2015).
12. The New York Times Annotated Corpus. URL: catalog.ldc.upenn.edu/LDC2008T19 (дата обращения: 14.01.2015).
13. The 20 Newsgroups data set. URL: qwone.com/~jason/20Newsgroups/ (дата обращения: 24.01.2015).
14. Reuters Corpora. URL: trec.nist.gov/data/reuters/reuters.html (дата обращения: 24.01.2015).
15. Reuters-21578 Text Categorization Collection Data Set. URL: archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection (дата обращения: 24.01.2015).
16. Виноградова В.Б., Кукушкина О.В., Поликарпов А.А., Савчук С.О.. Компьютерный корпус текстов русских газет конца 20-го века: создание, категоризация, автоматизированный анализ языковых особенностей // "Русский язык: исторические судьбы и современность" Международный конгресс русистов-исследователей. Труды и материалы. М.: Изд-во Моск. ун-та. 2001. С. 114–115.
17. Компьютерный корпус текстов русских газет конца XX-ого века. URL: www.philol.msu.ru/~lex/corpus/corp_descr.html (дата обращения: 24.01.2015)
18. Венцов А.В., Грудева Е.В. О корпусе русского литературного языка (narusco.ru) // Русская Лингвистика. 2009. Том 33. № 2. С. 195–209.
19. Корпус русского литературного языка. URL: www.narusco.ru (дата обращения: 24.01.2015).
20. Хельсинкский аннотированный корпус русских текстов ХАНКО. URL: www.helsinki.fi/venaja/russian/e-material/hanco/index.htm (дата обращения: 24.01.2015).
21. Официальный сайт программы морфологического анализа текстов на русском языке MyStem. URL: api.yandex.ru/mystem/ (дата обращения: 12.12.2014).
22. Xu S., Shi Q., Qiao X., et al. Author-Topic over Time (AToT): a dynamic users’ interest model, in Mobile, Ubiquitous, and Intelligent Computing // Springer. Berlin. 2014. pp. 239–245.
23. Ramage D., Hall D., Nallapati R., Manning C.D. Labeled LDA. A supervised topic model for credit attribution in multi-labeled corpora // In Empirical Methods in Natural Language Processing. 2009. pp. 248–256.
24. Wang X., McCallum A. Topics over Time: A Non-Markov Continuous Time Model of Topical Trends // In: Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Philadelphia. USA. 2006.
25. Gruber A., Rosen-Zvi M., Weiss Y. Hidden Topic Markov Models. In: Proceedings of Artificial Intelligence and Statistics (AISTATS) // San Juan. Puerto Rico. USA. 2007.
26. Захаров В.П., Азарова И.В.. Параметризация специальных корпусов текстов // Структурная и прикладная лингвистика: Межвузовский сборник. СПб: СПбГУ. 2012. Вып. 9. С. 176–184.
Опубликован
2015-04-16
Как цитировать
Карпович, С. Н. (2015). Русскоязычный корпус текстов SCTM-ru для построения тематических моделей. Труды СПИИРАН, 2(39), 123-142. https://doi.org/10.15622/sp.39.8
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).