Информационный поиск в социальных медиа на базе мультидоменной динамической системы знаний

Вадим Константинович Пимешков; Марина Леонидовна Никонорова; Максим Геннадьевич Шишаев

doi:10.15622/ia.25.3.6

Вадим Константинович Пимешков Институт информатики и математического моделирования им. В.А. Путилова — обособленное подразделение Федерального государственного бюджетного учреждения науки Федерального исследовательского центра «Кольский научный центр Российской академии наук» (ИИММ КНЦ РАН) Orcid
Марина Леонидовна Никонорова Институт информатики и математического моделирования им. В.А. Путилова — обособленное подразделение Федерального государственного бюджетного учреждения науки Федерального исследовательского центра «Кольский научный центр Российской академии наук» (ИИММ КНЦ РАН) Orcid
Максим Геннадьевич Шишаев Институт информатики и математического моделирования им. В.А. Путилова — обособленное подразделение Федерального государственного бюджетного учреждения науки Федерального исследовательского центра «Кольский научный центр Российской академии наук» (ИИММ КНЦ РАН) Orcid

DOI:

https://doi.org/10.15622/ia.25.3.6

Ключевые слова:

информационный поиск, социальные медиа, системы знаний, многослойный граф знаний, релевантность

Аннотация

Задача информационного поиска заключается в нахождении информации, наилучшим образом удовлетворяющей информационную потребность пользователя. В условиях социальных медиа информационный поиск осложняется высокой динамичностью контента, тематической разнородностью и разнообразием ментальных моделей пользователей. В данной работе предлагается подход к решению задачи информационного поиска в таких условиях путем построения мультидоменной динамической системы знаний. Ее новизна заключается в объединении трех уровней семантики: проблемно-ориентированной, представленной онтологией метазадачи (описывающей цели поиска); доменно-специфической, реализованной через динамический многослойный граф знаний, построенный на основе пользовательского контента социальных медиа; и доменно-независимой, основанной на лексической базе данных и большой языковой модели. Граф знаний позволяет отразить различные контексты употребления понятий, соответствующие тематическим кластерам в коллекции документов. Такая интеграция позволяет учитывать эволюцию понятий, особенности дискурса и ментальные стереотипы участников коммуникации. Для оценки эффективности предложенной системы проведен эксперимент с использованием датасета публикаций из социальной сети “ВКонтакте” по проблемно-ориентированному мониторингу публикаций, где требуется отбор релевантных публикаций из нетематизированных источников. Для решения данной задачи предложена технология, основанная на использовании метрики расстояния между терминами запроса и терминами публикации в многослойном графе знаний. Результаты эксперимента с применением данной технологии подтверждают эффективность предложенной модели для задач информационного поиска по сравнению со стандартным поиском по ключевым словам и эмбеддинговыми моделями. В продолжении данного исследования планируется сформировать лексическую базу данных, а также рассмотреть возможность расширения модели за счет применения меры точечной совместной информации и методов векторного представления графов.

Литература

1. Hambarde K.A., Proenca H. Information Retrieval: Recent Advances and Beyond // IEEE Access. 2023. vol. 11. pp. 76581–76604. DOI: 10.1109/ACCESS.2023.3295776.1–26.
2. Carpineto C., Romano G. A Survey of Automatic Query Expansion in Information Retrieval // ACM Computing Surveys. 2012. vol. 44. no. 1. pp. 1–50. DOI: 10.1145/2071389.2071390.
3. Azad H.K., Deepak A. Query Expansion Techniques for Information Retrieval: a survey // Information Processing and Management. 2019. vol. 56. no. 5. pp. 1698–1735. DOI: 10.1016/j.ipm.2019.05.009.
4. Russell-Rose T., Gooch P., Kruschwitz U. Interactive query expansion for professional search applications. arXiv:2106.13528. 2021.
5. Zou X. A Survey on Application of Knowledge Graph // Journal of Physics Conference Series. 2020. vol. 1487. no. 1. pp. 1–11. DOI: 10.1088/1742-6596/1487/1/012016.
6. Reinanda R., Meij E., de Rijke M. Knowledge Graphs: An Information Retrieval Perspective. 2020. pp. 1–153. DOI: 10.1561/9781680837292.
7. Janowicz K., et al. Know, Know Where, Knowwheregraph: A Densely Connected, Cross-Domain Knowledge Graph and Geo-Enrichment Service Stack for Applications in Environmental Intelligence // AI Magazine. 2022. vol. 43. no. 1. pp. 30–39. DOI: 10.1609/aimag.v43i1.19120.
8. Bouadjenek M.R., Hacid H., Bouzeghoub M. Social networks and information retrieval, how are they converging? A survey, a taxonomy and an analysis of social information retrieval approaches and platforms // Information Systems. 2016. vol. 56. pp. 1–18. DOI: 10.1016/j.is.2015.07.008.
9. Khalifi H., Dahir S., El Qadi A., et al Enhancing information retrieval performance by using social analysis // Social Network Analysis and Mining. 2020. vol. 10. no. 1. pp. 1–7. DOI: 10.1007/s13278-020-00635-w.
10. Hua Y., et al. Streamlining social media information retrieval for public health research with deep learning // J Am Med Inform Assoc. 2024. vol. 31. no. 7. pp. 1569–1577. DOI: 10.1093/jamia/ocae118.
11. Fellbaum C. WordNet: An Electronic Lexical Database / With a preface by George Miller. Cambridge, MA, USA: MIT Press, 1998. 422 p.
12. Baayen R.H., Piepenbrock R, Gulikers L. CELEX2 LDC96L14. Web Download. Philadelphia: Linguistic Data Consortium, 1995. DOI: 10.35111/gs6s-gm48.
13. Mahajan Y., Freestone M., Aakur S., Karmaker S. Revisiting Word Embeddings in the LLM Era: arXiv:2502.19607. 2025.
14. Park K., et al. The Geometry of Categorical and Hierarchical Concepts in Large Language Models: arXiv:2406.01506. 2025.
15. Nie Z., et al. When Text Embedding Meets Large Language Model: A Comprehensive Survey: arXiv:2412.09165. 2025.
16. Chroma. URL: https://github.com/chroma-core/chroma (дата обращения: 12.09.2025).
17. Wang J., et al. Milvus: A Purpose-Built Vector Data Management System // Proceedings of the 2021 International Conference on Management of Data. Virtual Event China: ACM. 2021. pp. 2614–2627. DOI: 10.1145/3448016.3457550.
18. Пимешков В.К., Никонорова М.Л., Шишаев М.Г. Комбинированный метод извлечения терминов для задачи мониторинга тематических обсуждений в социальных медиа // Информатика и автоматизация. 2024. Т. 23. №4. С. 1110–1138. DOI: 10.15622/ia.23.4.7.
19. Pimeshkov V., Nikonorova M., Shishaev M. Technology for Forming a Multilayer Knowledge Graph to Determine the Relevance of Documents // Digital and Information Technologies in Economics and Management / In: Gibadullin, A. (eds). Cham: Springer Nature Switzerland. 2025. vol. 1422. pp. 134–152. DOI: 10.1007/978-3-031-94273-0_11.
20. Шишаев М.Г., Пимешков В.К., Никонорова М.Л. Утилита формирования структур данных из документов Википедии // Роспатент: Свидетельство о государственной регистрации программы для ЭВМ №2024661261 от 16.05.2024.
21. Chen J., et al. BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation: arXiv:2402.03216. 2024.
22. Vera H. S., et al. EmbeddingGemma: Powerful and Lightweight Text Representations: arXiv:2509.20354. 2025.
23. Nussbaum Z., et al. Nomic Embed: Training a Reproducible Long Context Text Embedder: arXiv:2402.01613. 2025.
24. Zhu C., Liang Y., Liang X., Zhong L., Xie F. Fairness modeling for topics with different scales in short texts // PeerJ Computer Science. 2025. vol. 11. pp. 1–20. DOI: 10.7717/peerj-cs.2936.
25. Choudhary S., Luthra T., Mittal A., Singh R. A Survey of Knowledge Graph Embedding and Their Applications: arXiv:2107.07842. 2021.
26. Grover A., Leskovec J. node2vec: Scalable Feature Learning for Networks: arXiv:1607.00653. 2016.

Просмотры	137
Скачивания	92

Искусственный интеллект, инженерия данных и знаний

Информационный поиск в социальных медиа на базе мультидоменной динамической системы знаний

DOI:

Ключевые слова:

Аннотация

Литература

Опубликован

Статистика

Как цитировать

Выпуск

Раздел

Импакт-фактор

Разделы

Мы в сети

Обратная связь