Подход к проведению классификации текстов на основании возрастных групп их адресатов
Ключевые слова:
извлечение информации, классификация текстов, обработка естественного языка, признаки текстаАннотация
В статье рассматривается новый подход к выполнению классификации текстов, учитывающий наличие различных типов классификационных признаков (бинарных, номинальных, порядковых и интервальных). Особенность представленного подхода состоит в поэтапном проведении классификации, которое дает возможность не приводить разнотипные признаки, характеризующие текст, к единому диапазону. Также в статье предлагается набор классификационных признаков для проведения классификации русскоязычных текстов на основании их предполагаемой возрастной аудитории. В работе описывается вычислительный эксперимент с использованием текстов, включенных в Национальный корпус русского языка. Выборка включает в себя заведомо качественные и максимально разнообразные тексты, написанные на русском языке. Документы, входящие в состав рассматриваемой выборки, разделены в соответствии с мнениями экспертов-лингвистов на две категории — взрослые и детские. Таким образом, для обучения и тестирования использовались тексты, размеченные экспертами. В статье приведены значения точности классификации текстов, полученные в результате проведения серии экспериментов по автоматическому определению возрастных категорий адресатов текста (для кого написан текст — для детей или для взрослых).Литература
1. Усталов Д.А., Гольдштейн М.Л. Распределенная инструментальная среда словарного морфологического анализа для обработки русского языка // Вестник ЮФУ. Математическое моделирование и программирование. 2012. №27. С. 119-127.
2. Рубцова Ю.В. Разработка и исследование предметно независимого классификатора текстов по тональности // Труды СПИИРАН. 2014. №5. С. 59-77.
3. Тутубалина Е.В. Совместная вероятностная тематическая модель для идентификации проблемных высказываний, связанных нарушением функциональности продуктов // Труды ИСП РАН. 2015. №4. С. 111-128.
4. Астраханцев Н.А., Федоренко Д.Г., Турдаков Д.Ю. Методы автоматического извлечения терминов из коллекции текстов предметной области // Программирование. 2015. №6. С. 33-52.
5. Карпович С.Н. Многозначная классификация текстовых документов с использованием вероятностного тематического моделирования ml-PLSI // Труды СПИИРАН. 2016. №4. С. 92-104.
6. Шумская А.О. Метод определения искусственных текстов на основе расчета меры принадлежности к инвариантам // Труды СПИИРАН. 2016. №6. С. 104-121.
7. Shriberg E., Stolcke A., Ravuri S.V. Addressee detection for dialog systems using temporal and spectral dimensions of speaking style // Proceedings of Interspeech. 2013. pp. 2559-2563.
8. Ravuri S.V., Stolcke A. Neural Network Models for Lexical Addressee Detection // Proceedings of Interspeech. 2014. pp. 298-302.
9. Jovanovic N., op den Akker H. Towards automatic addressee identification in multi-party dialogues // Proceedings of the 5th SIGdial Workshop on Discourse and Dialogue. 2004. pp. 89-92.
10. Lee H., Stolcke A., Shriberg E. Using out-of-domain data for lexical addressee detection in human-human-computer dialog // Proceedings of North American ACL Human Language Technology Conference. 2013. pp. 215-219.
11. Santosh K., Shekhar M., Varma V. Author Profiling: Predicting Age and Gender from Blogs // CLEF 2013 evaluation labs and workshop. 2013. pp. 23-26.
12. Pentel A. Effect of different feature types on age based classification of short texts // 6th International Conference on Information, Intelligence, Systems and Applications (IISA). 2015. pp. 1-7.
13. Pentel A. Automatic Age Detection Using Text Readability Features // CEUR Workshop Proceedings. 2015. pp. 40-45.
14. Lorge I. Predicting readability // Teachers college record. 1944. №45. pp. 404-419.
15. Федеральный закон Российской Федерации от 29 декабря 2010 г. № 436-ФЗ «О защите детей от информации, причиняющей вред их здоровью и развитию». URL: http://www.consultant.ru/document/cons_doc_LAW_108808 (дата обращения: 11.02.2016).
16. «База данных метатекстовой разметки Национального корпуса русского языка» (коллекция детской литературы)». 2014.
17. Национальный корпус русского языка. URL: http:// ruscorpora.ru (дата обращения 26.01.2016).
18. Ахапкина Я.Э. и др. Проблемы функциональной грамматики. Принцип естественной классификации // М.: Языки славянской культуры. 2013. 507 с.
19. Jurafsky D., Martin J.H. Speech and Language Processing (2nd Edition) // Upper Saddle River, New Jersey: Prentice Hall. 2009. 975 p.
20. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: классификация и снижение размерности // М.: Финансы и статистика. 1989. 607 c.
21. Шокин Ю.И., Федотов А.М., Барахнин В.Б. Проблемы поиска информации // Новосибирск: Наука. 2010. 220 с.
22. Кафтанников И.Л., Парасич А.В. Проблемы формирования обучающей выборки в задачах машинного обучения // Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника. 2016. Т. 16. №3. С. 15-24.
23. Canavet O., Fleuret F. Efficient sample mining for object detection // Proceedings of the Asian Conference on Machine Learning (ACML). 2014. pp. 48-63.
24. Введенская Л.А., Кашаева Е.Ю., Павлова Л.Г. Русский язык и культура речи. Учебное пособие для вузов для бакалавров и магистрантов / Под ред. С.А. Осташова // М.: Феникс. 2016. 539 с.
25. Глазкова А.В. Интеллектуальная система автоматического определения категории потенциальных адресатов текста // Программные продукты и системы. 2016. №3. С. 85–89.
26. Глазкова А.В. Расчёт оценки степени близости категорий текстов при решении задач классификации электронных документов. А.с. 6164622015, 2015.
2. Рубцова Ю.В. Разработка и исследование предметно независимого классификатора текстов по тональности // Труды СПИИРАН. 2014. №5. С. 59-77.
3. Тутубалина Е.В. Совместная вероятностная тематическая модель для идентификации проблемных высказываний, связанных нарушением функциональности продуктов // Труды ИСП РАН. 2015. №4. С. 111-128.
4. Астраханцев Н.А., Федоренко Д.Г., Турдаков Д.Ю. Методы автоматического извлечения терминов из коллекции текстов предметной области // Программирование. 2015. №6. С. 33-52.
5. Карпович С.Н. Многозначная классификация текстовых документов с использованием вероятностного тематического моделирования ml-PLSI // Труды СПИИРАН. 2016. №4. С. 92-104.
6. Шумская А.О. Метод определения искусственных текстов на основе расчета меры принадлежности к инвариантам // Труды СПИИРАН. 2016. №6. С. 104-121.
7. Shriberg E., Stolcke A., Ravuri S.V. Addressee detection for dialog systems using temporal and spectral dimensions of speaking style // Proceedings of Interspeech. 2013. pp. 2559-2563.
8. Ravuri S.V., Stolcke A. Neural Network Models for Lexical Addressee Detection // Proceedings of Interspeech. 2014. pp. 298-302.
9. Jovanovic N., op den Akker H. Towards automatic addressee identification in multi-party dialogues // Proceedings of the 5th SIGdial Workshop on Discourse and Dialogue. 2004. pp. 89-92.
10. Lee H., Stolcke A., Shriberg E. Using out-of-domain data for lexical addressee detection in human-human-computer dialog // Proceedings of North American ACL Human Language Technology Conference. 2013. pp. 215-219.
11. Santosh K., Shekhar M., Varma V. Author Profiling: Predicting Age and Gender from Blogs // CLEF 2013 evaluation labs and workshop. 2013. pp. 23-26.
12. Pentel A. Effect of different feature types on age based classification of short texts // 6th International Conference on Information, Intelligence, Systems and Applications (IISA). 2015. pp. 1-7.
13. Pentel A. Automatic Age Detection Using Text Readability Features // CEUR Workshop Proceedings. 2015. pp. 40-45.
14. Lorge I. Predicting readability // Teachers college record. 1944. №45. pp. 404-419.
15. Федеральный закон Российской Федерации от 29 декабря 2010 г. № 436-ФЗ «О защите детей от информации, причиняющей вред их здоровью и развитию». URL: http://www.consultant.ru/document/cons_doc_LAW_108808 (дата обращения: 11.02.2016).
16. «База данных метатекстовой разметки Национального корпуса русского языка» (коллекция детской литературы)». 2014.
17. Национальный корпус русского языка. URL: http:// ruscorpora.ru (дата обращения 26.01.2016).
18. Ахапкина Я.Э. и др. Проблемы функциональной грамматики. Принцип естественной классификации // М.: Языки славянской культуры. 2013. 507 с.
19. Jurafsky D., Martin J.H. Speech and Language Processing (2nd Edition) // Upper Saddle River, New Jersey: Prentice Hall. 2009. 975 p.
20. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: классификация и снижение размерности // М.: Финансы и статистика. 1989. 607 c.
21. Шокин Ю.И., Федотов А.М., Барахнин В.Б. Проблемы поиска информации // Новосибирск: Наука. 2010. 220 с.
22. Кафтанников И.Л., Парасич А.В. Проблемы формирования обучающей выборки в задачах машинного обучения // Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника. 2016. Т. 16. №3. С. 15-24.
23. Canavet O., Fleuret F. Efficient sample mining for object detection // Proceedings of the Asian Conference on Machine Learning (ACML). 2014. pp. 48-63.
24. Введенская Л.А., Кашаева Е.Ю., Павлова Л.Г. Русский язык и культура речи. Учебное пособие для вузов для бакалавров и магистрантов / Под ред. С.А. Осташова // М.: Феникс. 2016. 539 с.
25. Глазкова А.В. Интеллектуальная система автоматического определения категории потенциальных адресатов текста // Программные продукты и системы. 2016. №3. С. 85–89.
26. Глазкова А.В. Расчёт оценки степени близости категорий текстов при решении задач классификации электронных документов. А.с. 6164622015, 2015.
Опубликован
2017-05-31
Как цитировать
Глазкова, А. В. (2017). Подход к проведению классификации текстов на основании возрастных групп их адресатов. Труды СПИИРАН, 3(52), 51-69. https://doi.org/10.15622/sp.52.3
Раздел
Методы управления и обработки информации
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).