Автоматическая рубрикация документов с помощью латентно-семантического анализа и алгоритма нечёткого вывода Мамдани
Ключевые слова:
рубрикация документов, нечеткий вывод, латентно-семантический анализ, база правил, алгоритм нечёткого вывода МамданиАннотация
Предлагается подход к автоматической рубрикации текстовых документов на основе совместного применения метода латентно-семантического анализа (ЛСА) и алгоритма нечёткого вывода Мамдани. Метод ЛСА используется для смыслового анализа информации в системах электронного документооборота путем выявления семантических зависимостей между термами документов и получения коэффициента соответствия сравниваемых векторов. Предлагается база правил для алгоритма нечёткого вывода Мамдани, реализующего автоматическую рубрикацию документов по множеству заданных тематик с возможностью автоматизированного контроля за распределением документов не соответствующим заданным тематикам или имеющим сходство сразу по нескольким тематическим категориям на основе результатов латентно-семантического анализа.Литература
1. Агеев М.С., Добров Б.В., Лукашевич Н.В. Автоматическая рубрикация текстов: методы и проблемы // Учебные записки Казанского государственного университета. Физико-математические науки. 2008. Т. 150. Книга 4. С. 25–40.
2. Гареев А. Ф. Автоматическое тематическое рубрицирование сообщений средств массовой информации на основе применения технологии нейронных сетей // Информационные технологии. 1999. № 5. С. 26–33.
3. Papka R., Allan J. Document classification using multiword features // Proceedings of the A CM International Conference on Information and Knowledge Management (CIKM-98). New York. ACM Press. 1998. pp. 124–131.
4. Manning C.D., Raghavan P., Schütze H. An Introduction to Information Retrieval Draft. Online edition // Cambridge University Press. 2009. 544 p.
5. Хомоненко А.Д., Краснов С.А.. Применение метода латентно-семантического анализа для автоматической рубрикации документов // Известия Петербургского университета путей сообщения. 2012. № 2(31). С. 124–132.
6. Бубнов В.П. и др. Модели информационных систем: учеб. пособие // М.: ФГБОУ «Учебно-методический центр по образованию на железнодорожном транспорте». 2015. 188 с.
7. Mamdani E.H. Application of fuzzy logic to approximate reasoning using linguistic Systems // Fuzzy Sets and Systems. 1977. vol. 26. pp. 1182–1191.
8. Войцеховский С.В., Хомоненко А.Д. Выявление вредоносных программных воздействий на основе нечеткого вывода // Проблемы информационной безопасности. Компьютерные системы. 2011. № 3. С. 81–91.
9. Хомоненко А.Д. , Войцеховский С.В., Логашев С.В., Дашонок В.Л. Устранение семантических противоречий в elibrary.ru на основе нечёткого вывода // Проблемы информационной безопасности. Компьютерные системы. 2015. № 1. С. 24–33.
10. Хомоненко А.Д., Дашонок В.Л., Краснов С.А. Выявление противоречий в семантически близкой информации на основе латентно-семантического анализа // Проблемы информационной безопасности. Компьютерные системы. 2014. № 2. С. 73–84.
11. Foltz P.W. Using latent semantic indexing for information filtering // In ACM Conference on Office Information Systems (COIS). 1990. pp. 40–47.
12. Dumais S. Latent semantic indexing: TREC-3 report // In Proc. of the Third Text REtrieval Conference. 1995. pp. 219–230.
13. Landauer T., Foltz P. and Laham D. An introduction to Latent Semantic Analysys. Discourse processes. 1998. vol. 25. no. 2–3. С. 259–284.
14. Кураленок И.Е., Некрестьянов И.С. Автоматическая классификация документов на основе латентно-семантического анализа // Труды первой всероссийской научно-методической конференции “Электронные библиотеки: перспективные методы и технологии, электронные коллекции”. СПб. 1999. C. 89–96.
15. Хомоненко А.Д., Краснов С.А., Еремин А.С. Оценка оперативности автоматической рубрикации документов с помощью модели нестационарной системы обслуживания с эрланговским распределением длительности интервалов между запросами // Проблемы информационной безопасности. Компьютерные системы. 2012. № 3С. 14–21.
16. Takagi T., Sugeno M. Fuzzy Identification of Systems and Its Applications to Modeling and Control // IEEE Trans. Systems, Man, and Cybernetics. 1985. vol. 15. no. 1. pp. 116–132.
17. Леоненков А. Нечеткое моделирование в среде MATLAB и fuzzyTECH //СП: БХВ-Петербург. 2003. 736 с.
18. Штовба С.Д. Проектирование нечётких систем средствами MATLAB // М.: Горячая линия-Телеком. 2007. 288 с.
2. Гареев А. Ф. Автоматическое тематическое рубрицирование сообщений средств массовой информации на основе применения технологии нейронных сетей // Информационные технологии. 1999. № 5. С. 26–33.
3. Papka R., Allan J. Document classification using multiword features // Proceedings of the A CM International Conference on Information and Knowledge Management (CIKM-98). New York. ACM Press. 1998. pp. 124–131.
4. Manning C.D., Raghavan P., Schütze H. An Introduction to Information Retrieval Draft. Online edition // Cambridge University Press. 2009. 544 p.
5. Хомоненко А.Д., Краснов С.А.. Применение метода латентно-семантического анализа для автоматической рубрикации документов // Известия Петербургского университета путей сообщения. 2012. № 2(31). С. 124–132.
6. Бубнов В.П. и др. Модели информационных систем: учеб. пособие // М.: ФГБОУ «Учебно-методический центр по образованию на железнодорожном транспорте». 2015. 188 с.
7. Mamdani E.H. Application of fuzzy logic to approximate reasoning using linguistic Systems // Fuzzy Sets and Systems. 1977. vol. 26. pp. 1182–1191.
8. Войцеховский С.В., Хомоненко А.Д. Выявление вредоносных программных воздействий на основе нечеткого вывода // Проблемы информационной безопасности. Компьютерные системы. 2011. № 3. С. 81–91.
9. Хомоненко А.Д. , Войцеховский С.В., Логашев С.В., Дашонок В.Л. Устранение семантических противоречий в elibrary.ru на основе нечёткого вывода // Проблемы информационной безопасности. Компьютерные системы. 2015. № 1. С. 24–33.
10. Хомоненко А.Д., Дашонок В.Л., Краснов С.А. Выявление противоречий в семантически близкой информации на основе латентно-семантического анализа // Проблемы информационной безопасности. Компьютерные системы. 2014. № 2. С. 73–84.
11. Foltz P.W. Using latent semantic indexing for information filtering // In ACM Conference on Office Information Systems (COIS). 1990. pp. 40–47.
12. Dumais S. Latent semantic indexing: TREC-3 report // In Proc. of the Third Text REtrieval Conference. 1995. pp. 219–230.
13. Landauer T., Foltz P. and Laham D. An introduction to Latent Semantic Analysys. Discourse processes. 1998. vol. 25. no. 2–3. С. 259–284.
14. Кураленок И.Е., Некрестьянов И.С. Автоматическая классификация документов на основе латентно-семантического анализа // Труды первой всероссийской научно-методической конференции “Электронные библиотеки: перспективные методы и технологии, электронные коллекции”. СПб. 1999. C. 89–96.
15. Хомоненко А.Д., Краснов С.А., Еремин А.С. Оценка оперативности автоматической рубрикации документов с помощью модели нестационарной системы обслуживания с эрланговским распределением длительности интервалов между запросами // Проблемы информационной безопасности. Компьютерные системы. 2012. № 3С. 14–21.
16. Takagi T., Sugeno M. Fuzzy Identification of Systems and Its Applications to Modeling and Control // IEEE Trans. Systems, Man, and Cybernetics. 1985. vol. 15. no. 1. pp. 116–132.
17. Леоненков А. Нечеткое моделирование в среде MATLAB и fuzzyTECH //СП: БХВ-Петербург. 2003. 736 с.
18. Штовба С.Д. Проектирование нечётких систем средствами MATLAB // М.: Горячая линия-Телеком. 2007. 288 с.
Опубликован
2016-02-15
Как цитировать
Хомоненко, А. Д., Логашев, С. В., & Краснов, С. А. (2016). Автоматическая рубрикация документов с помощью латентно-семантического анализа и алгоритма нечёткого вывода Мамдани. Труды СПИИРАН, 1(44), 5-19. https://doi.org/10.15622/sp.44.1
Раздел
Алгоритмы и программные средства
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).