Оценка семантической близости документов на основе латентно-семантического анализа с автоматическим выбором ранговых значений
Ключевые слова:
оценка семантической близости документов, выявление дублирования и противоречий, базы данных, латентно-семантический анализ, статистический анализ, косинусная мера близости, векторная модельАннотация
Предлагается метод оценки семантической близости документов на основе латентно-семантического анализа, учета динамики изменения сингулярных значений матрицы терм-документ и автоматического определения диапазона ранговых значений. Оценка семантической близости документов рассматривается применительно к решению задач выявления дублирования и противоречий в базах данных. Приводится краткий обзор подходов, используемых при оценке семантической близости документов, выявлении дублирования и противоречий в базах данных и хранилищах данных. Приводятся результаты численных примеров оценки семантических зависимостей между термами документов в интересах выявления дублирования и противоречий в базах данных. При этом в качестве результирующей характеристики рассчитывается степень соответствия λ сравниваемых документов. Приведены сравнительные оценки расчета степени соответствия λ документов с помощью основных методов (косинусной меры близости, векторной модели, коэффициента ранговой корреляции Спирмена, статической меры tf-idf — частота термина — обратная документная частота). Показано, что использование предложенного метода анализа динамики изменения сингулярных чисел матрицы «терм-документ» с автоматическим выбором диапазона используемых ранговых значений позволяет устранить зависимость метода латентно-семантического анализа от выбора оптимального ранга.Литература
1. Witten I.H., Frank E., Hall M.A. Data Mining: Practical Machine Learning Tools and Techniques: 3rd edition // Morgan Kaufmann. 2011. 664 p.
2. Паклин Н. Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям (+ СD) // СПб.: Изд. Питер. 2009. 624 с.
3. Weissman S., Ayhan S., Bradley J., Lin J. Identifying Duplicate and Contradictory Information in Wikipedia // Proceedings of the 15th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL '15). 2015. pp. 57–60.
4. Йоцов В.С., Сгурев В.С., Юсупов Р.М., Хомоненко А.Д. Онтологии для разрешения семантических конфликтов // Труды СПИИРАН. 2008. Вып. 7. С. 26–40.
5. Ram S., Park J. Semantic Conflict Resolution Ontology (SCROL): An Ontology for Detecting and Resolving Data- and Schema-Level Semantic Conflicts // IEEE Transactions on Knowledge and Data engineering. 2004. vol. 16. no. 2. pp. 189–202.
6. Хомоненко А.Д., Войцеховский С.В., Логашев С.В., Дашонок В.Л. Устранение семантических противоречий в elibrary.ru на основе нечеткого вывода // Проблемы информационной безопасности. Компьютерные системы. 2015. № 1. С. 24–33.
7. Хомоненко А.Д., Логашев С.В., Краснов С.А. Автоматическая рубрикация документов с помощью латентно-семантического анализа и алгоритма нечеткого вывода Мамдани // Труды СПИИРАН. 2016. № 1(44) С. 5–19.
8. Lawrence R. Automatic Conflict Resolution to Integrate Relational Schema // Ph.D. Thesis. 2001. 165 p.
9. Galitsky B., Ilvovsky D., Kuznetsov S.O. Style and Genre Classification by Means of Deep Textual Parsing // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2016". 2016. pp. 171–181.
10. Peng Z., Kambayashi Y. Resolving Conflicts and Handling Replication during Integration of Multiple Databases by Object Deputy Model // Proceedings of the 20th International Conference on Conceptual Modeling: Conceptual Modeling. 2001. LNCS 2224. pp. 285–298.
11. De Marneffe M.-C., Rafferty A. N., Manning C.D. Finding Contradictions in Text // Proceedings of ACL-08: HLT. 2008. pp. 1039–1047.
12. Воронцов К., Фрей А., Ромов П. BigARTM: библиотека с открытым кодом для тематического моделирования больших текстовых коллекций // Аналитика и управление данными в областях с интенсивным использованием данных. 2015 С. 28–36.
13. Бондарчук Д.В., Тимофеева Г.А. Математические основы метода категориальных векторов в интеллектуальном анализе данных // Вестник Уральского государственного университета путей сообщения. 2015. № 4(28). С. 4–8.
14. Gupta M., Bendersky M. Information Retrieval with Verbose Queries // Foundations and Trends in Information Retrieval. 2015. vol. 9. no. 3–4. pp. 209–354.
15. Landauer T., Foltz P., Laham D. An introduction to Latent Semantic Analysis // Discourse processes. 1998. vol. 25. no. 2–3. pp. 259–284.
16. Foltz P.W. Using latent semantic indexing for information filtering // ACM Conference on Office Information Systems (COIS). 1990. pp. 40–47.
17. Бубнов В.П. и др. Модели информационных систем: учеб. пособие // М.: ФГБОУ «Учебно-методический центр по образованию на железнодорожном транспорте». 2015. 188 с.
18. Dumais S. Latent semantic indexing: TREC-3 report // Proc. of the Third Text REtrieval Conference. 1995. pp. 219–230.
19. Соловьев А.Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа: диссертация на соискание степени к.ф-м.н. // С.-Петерб. гос. ун-т. Санкт-Петербург. 2008.
20. Хомоненко А.Д., Дашонок В.Л., Краснов С.А. Выявление противоречий в семантически близкой информации на основе латентно-семантического анализа // Проблемы информационной безопасности. Компьютерные системы. 2014. № 2. С. 73–84.
21. Gomaa W.H., Fahmy A.A. A Survey of Text Similarity Approaches. International. Journal of Computer Applications 2013. vol. 68. no. 13. pp. 13–18.
22. Бермудес С.Х.Г., Керимова С.У. О методе определения текстовой близости, основанном на семантических классах // Инженерный вестник Дона. 2016. № 4(43). URL: ivdon.ru/ru/magazine/archive/n4y2016/3832 (дата обращения: 01.08.2017).
23. Kuznetsov S., Poelmans J. Knowledge representation and processing with formal concept analysis // Wiley interdisciplinary views: Data mining and knowledge discovery. 2013. vol. 3. pp. 200–215.
24. Jones K.S. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. 2004. vol. 60. no. 5. pp. 493–502.
25. Manning C.D., Raghavan P., Schütze H. An Introduction to Information Retrieval Draft // Online edition. Cambridge University Press. 2009. 544 p.
26. Бондарчук Д.В. Использование латентно-семантического анализа в задачах классификации текстов по эмоциональной окраске // Бюллетень результатов научных исследований. 2012. № 2(3). С. 146–152.
27. Краснов С.А., Хомоненко А.Д., Яковлев Я.В. Оценка эффективности применения алгоритма вычисления коэффициента ранговой корреляции Спирмена в методе латентно-семантического анализа при автоматической рубрикации документов // Бюллетень результатов научных исследований. 2012. № 2(3). С. 153–162.
2. Паклин Н. Б., Орешков В. И. Бизнес-аналитика: от данных к знаниям (+ СD) // СПб.: Изд. Питер. 2009. 624 с.
3. Weissman S., Ayhan S., Bradley J., Lin J. Identifying Duplicate and Contradictory Information in Wikipedia // Proceedings of the 15th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL '15). 2015. pp. 57–60.
4. Йоцов В.С., Сгурев В.С., Юсупов Р.М., Хомоненко А.Д. Онтологии для разрешения семантических конфликтов // Труды СПИИРАН. 2008. Вып. 7. С. 26–40.
5. Ram S., Park J. Semantic Conflict Resolution Ontology (SCROL): An Ontology for Detecting and Resolving Data- and Schema-Level Semantic Conflicts // IEEE Transactions on Knowledge and Data engineering. 2004. vol. 16. no. 2. pp. 189–202.
6. Хомоненко А.Д., Войцеховский С.В., Логашев С.В., Дашонок В.Л. Устранение семантических противоречий в elibrary.ru на основе нечеткого вывода // Проблемы информационной безопасности. Компьютерные системы. 2015. № 1. С. 24–33.
7. Хомоненко А.Д., Логашев С.В., Краснов С.А. Автоматическая рубрикация документов с помощью латентно-семантического анализа и алгоритма нечеткого вывода Мамдани // Труды СПИИРАН. 2016. № 1(44) С. 5–19.
8. Lawrence R. Automatic Conflict Resolution to Integrate Relational Schema // Ph.D. Thesis. 2001. 165 p.
9. Galitsky B., Ilvovsky D., Kuznetsov S.O. Style and Genre Classification by Means of Deep Textual Parsing // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference "Dialogue 2016". 2016. pp. 171–181.
10. Peng Z., Kambayashi Y. Resolving Conflicts and Handling Replication during Integration of Multiple Databases by Object Deputy Model // Proceedings of the 20th International Conference on Conceptual Modeling: Conceptual Modeling. 2001. LNCS 2224. pp. 285–298.
11. De Marneffe M.-C., Rafferty A. N., Manning C.D. Finding Contradictions in Text // Proceedings of ACL-08: HLT. 2008. pp. 1039–1047.
12. Воронцов К., Фрей А., Ромов П. BigARTM: библиотека с открытым кодом для тематического моделирования больших текстовых коллекций // Аналитика и управление данными в областях с интенсивным использованием данных. 2015 С. 28–36.
13. Бондарчук Д.В., Тимофеева Г.А. Математические основы метода категориальных векторов в интеллектуальном анализе данных // Вестник Уральского государственного университета путей сообщения. 2015. № 4(28). С. 4–8.
14. Gupta M., Bendersky M. Information Retrieval with Verbose Queries // Foundations and Trends in Information Retrieval. 2015. vol. 9. no. 3–4. pp. 209–354.
15. Landauer T., Foltz P., Laham D. An introduction to Latent Semantic Analysis // Discourse processes. 1998. vol. 25. no. 2–3. pp. 259–284.
16. Foltz P.W. Using latent semantic indexing for information filtering // ACM Conference on Office Information Systems (COIS). 1990. pp. 40–47.
17. Бубнов В.П. и др. Модели информационных систем: учеб. пособие // М.: ФГБОУ «Учебно-методический центр по образованию на железнодорожном транспорте». 2015. 188 с.
18. Dumais S. Latent semantic indexing: TREC-3 report // Proc. of the Third Text REtrieval Conference. 1995. pp. 219–230.
19. Соловьев А.Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа: диссертация на соискание степени к.ф-м.н. // С.-Петерб. гос. ун-т. Санкт-Петербург. 2008.
20. Хомоненко А.Д., Дашонок В.Л., Краснов С.А. Выявление противоречий в семантически близкой информации на основе латентно-семантического анализа // Проблемы информационной безопасности. Компьютерные системы. 2014. № 2. С. 73–84.
21. Gomaa W.H., Fahmy A.A. A Survey of Text Similarity Approaches. International. Journal of Computer Applications 2013. vol. 68. no. 13. pp. 13–18.
22. Бермудес С.Х.Г., Керимова С.У. О методе определения текстовой близости, основанном на семантических классах // Инженерный вестник Дона. 2016. № 4(43). URL: ivdon.ru/ru/magazine/archive/n4y2016/3832 (дата обращения: 01.08.2017).
23. Kuznetsov S., Poelmans J. Knowledge representation and processing with formal concept analysis // Wiley interdisciplinary views: Data mining and knowledge discovery. 2013. vol. 3. pp. 200–215.
24. Jones K.S. A statistical interpretation of term specificity and its application in retrieval // Journal of Documentation. 2004. vol. 60. no. 5. pp. 493–502.
25. Manning C.D., Raghavan P., Schütze H. An Introduction to Information Retrieval Draft // Online edition. Cambridge University Press. 2009. 544 p.
26. Бондарчук Д.В. Использование латентно-семантического анализа в задачах классификации текстов по эмоциональной окраске // Бюллетень результатов научных исследований. 2012. № 2(3). С. 146–152.
27. Краснов С.А., Хомоненко А.Д., Яковлев Я.В. Оценка эффективности применения алгоритма вычисления коэффициента ранговой корреляции Спирмена в методе латентно-семантического анализа при автоматической рубрикации документов // Бюллетень результатов научных исследований. 2012. № 2(3). С. 153–162.
Опубликован
2017-10-12
Как цитировать
Краснов, С. А., Илатовский, А. С., Хомоненко, А. Д., & Арсеньев, В. Н. (2017). Оценка семантической близости документов на основе латентно-семантического анализа с автоматическим выбором ранговых значений. Труды СПИИРАН, 5(54), 185-204. https://doi.org/10.15622/sp.54.8
Раздел
Алгоритмы и программные средства
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).