Метод интеграции больших языковых моделей в алгоритмы фокусированного мониторинга открытых данных социальных медиа
Ключевые слова:
социальные медиа, публикации, обобщение, большие языковые модели, генерация дополненная поиском, интеллектуальные агенты, гибридный методАннотация
Актуальность исследования определяется важностью и сложностью выполнения оперативных обобщений постоянно возрастающего массива пользовательских сообщений в социальных сетях. Предлагается уменьшить сложность решаемой задачи за счет использования роботизированных алгоритмов и их автоматизированной интеллектуальной фокусировки на целевые платформы, доступность данных и их объемы. Рассматривается способность больших языковых моделей (LLMs) генерировать высококачественные, связные и контекстно-зависимые аннотации (рефераты), подходящие для динамической природы неструктурированных, «зашумленных» данных социальных сетей. Представлены особенности технологии RAG LLM при реферировании публикаций социальных сетей. Основным недостатком языковых моделей является нестабильность и сложность прослеживания результатов для подтверждения фактической точности. Авторами предложен гибридный метод для обобщения сообщений в социальных сетях за определенный период времени. Метод заключается в комплексном и вариативном сочетании классических способов извлечений данных из их хранилищ, а также реферативных и генеративных возможностей больших языковых моделей. Большие языковые модели использованы для векторизации анализируемых данных. Применение алгоритмов кластеризации к полученным векторным представлениям позволило повысить стабильность и качество результатов. В рамках технологии RAG возможности больших языковых моделей расширены средствами интеллектуального поиска в используемой для хранения исходных данных базе MongoDB. В работе представлены три конвейера, каждый из которых является вариантом реализации метода и обладает преимуществами и недостатками в различных условиях применения. Приведены используемые для оценки конвейеров метрики и произведен сравнительный анализ. В целом, метод позволяет уменьшить конфабуляции большой языковой модели и получать обобщения публикаций за разные временные периоды в режиме реального времени. Предложенный метод применяется на практике в разработанной авторами системе мониторинга открытых данных социальных медиа.
Литература
2. Blei D.M., Ng A.Y., Jordan M.I. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003. vol. 3. pp. 993–1022.
3. Федоров А.М., Датьев И.О., Вишняков И.Г. Проектирование информационной системы комплексного тематического анализа больших данных социальных медиа // Онтология проектирования. 2024. Т. 14. № 1(51). С. 55–70. DOI: 10.18287/2223-9537-2024-14-1-55-70.
4. Zhang Y., Jin H., Meng D., Wang J., Tan J. A Comprehensive Survey on Process-Oriented Automatic Text Summarization with Exploration of LLM-Based Methods. arXiv preprint arXiv:2403.02901. 2024.
5. Glickman M., Zhang Y. AI and Generative AI for Research Discovery and Summarization // Harvard Data Science Review. 2024. vol. 6(2). DOI: 10.1162/99608f92.7f9220ff.
6. Rose S., Engel D., Cramer N., Cowley W. Automatic Keyword Extraction from Individual Documents // Text mining: applications and theory. 2010. pp. 1–20. DOI: 10.1002/9780470689646.ch1.
7. Campos R., Mangaravite V., Pasquali A., Jorge A., Nunes C., Jatowt A. YAKE! Keyword extraction from single documents using multiple local features // Information Sciences. 2020. vol. 509. pp. 257–289. DOI: 10.1016/j.ins.2019.09.013.
8. Mihalcea R., Tarau P. TextRank: Bringing Order into Text // Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona, Spain: Association for Computational Linguistics, 2004. pp. 404–411.
9. Tabanmehr Z., Akhtarkavan E. Automatic summarization of Instagram social network posts by combining semantic and statistical approaches // 6th International Conference on Pattern Recognition and Image Analysis (IPRIA). 2023. pp. 1–6. DOI: 10.1109/IPRIA59240.2023.10147186.
10. Ghali M.K., Farrag A., Lam S., Won, D. Beyondwords is All You Need: Agentic Generative Ai Based Social Media Themes Extractor. URL: https://ssrn.com/abstract=5155101 (дата обращения: 26.10.2025)
11. Wei J., Wang X., Schuurmans D., Bosma M., Ichter B., Xia F., Chi E., Le Q., Zhou D. Chain-of-thought prompting elicits reasoning in large language models // Proceedings of the 36th International Conference on Neural Information Processing Systems (NIPS'22). NY, USA: Curran Associates Inc., Red Hook, 2022. pp. 24824–24837.
12. Kojima T., Gu S.S., Reid M., Matsuo Y., Iwasawa Y. Large language models are zero-shot reasoners // In Proceedings of the 36th International Conference on Neural Information Processing Systems (NIPS '22). NY, USA: Curran Associates Inc., Red Hook, 2022. pp. 22199–22213.
13. Kambhamettu H., Flores J., Head A. Traceable Text: Deepening Reading of AI-Generated Summaries with Phrase-Level Provenance Links. arXiv preprint arXiv:2409.13099. 2024. DOI: 10.48550/arXiv.2409.13099.
14. Zhao S., Yang Y., Wang Z., He Z., Qiu L.K., Qiu L. Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely. arXiv preprint arXiv:2409.14924. 2024. DOI: 10.48550/arXiv.2409.14924.
15. Hidayaturrahman, Prawira I. Retrieval-Augmented Generation for Social Media Content Creation with Sentence Window and Auto-Merging Retrieval. International Conference on Informatics, Multimedia, Cyber and Information System (ICIMCIS). 2024. pp. 608–613. DOI: 10.1109/ICIMCIS63449.2024.10956838.
16. Zhang W, Zhang J. Hallucination Mitigation for Retrieval-Augmented Large Language Models: A Review // Mathematics. 2025. vol. 13(5). DOI: 10.3390/math13050856.
17. Yu H.Q., McQuade F. RAG-KG-IL: A Multi-Agent Hybrid Framework for Reducing Hallucinations and Enhancing LLM Reasoning through RAG and Incremental Knowledge Graph Learning Integration // arXiv preprint arXiv:2503.13514. 2025.
18. Zhou Y., Liu Y., Li X., Jin J., Qian H., Liu Z., Li C., Dou Z., Ho T.-Y., Yu P. Trustworthiness in Retrieval-Augmented Generation Systems: A Survey. arXiv preprint arXiv:2409.10102. 2024. DOI: 10.48550/arXiv.2409.10102.
19. Das S., Ge Y., Guo Y., Rajwal S., Hairston J., Powell J., Walker D., Peddireddy S., Lakamana S., Bozkurt S., Reyna M., Sameni R., Xiao Y., Kim S., Chandler R., Hernandez N., Mowery D., Wightman R., Love J., Spadaro A., Perrone J., Sarker A. Two-Layer Retrieval-Augmented Generation Framework for Low-Resource Medical Question Answering Using Reddit Data: Proof-of-Concept Study // Journal of Medical Internet Research. 2025. vol. 27. DOI: 10.2196/66220.
20. Gupta S., Ranjan R., Singh S.N. A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions. arXiv preprint arXiv:2410.12837. 2024. DOI: 10.48550/arXiv.2410.12837.
21. Sun D., Lyu Y., Li J., Chen Y., Wang T., Kimura T., Abdelzaher T. SCRAG: Social Computing-Based Retrieval Augmented Generation for Community Response Forecasting in Social Media Environments. arXiv preprint arXiv:2504.16947v1. 2025. DOI: 10.48550/arXiv.2504.16947.
22. Wu X.-K., Chen M., Li W., Wang R., Lu L., Liu J., Hwang K., Hao Y., Pan Y., Meng Q., et al. LLMFine-Tuning: Concepts, Opportunities,and Challenges // Big Data Cogn.Comput. 2025. vol. 9. DOI: 10.3390/bdcc9040087.
23. Song Y., Lv C., Zhu K., et al. LoRA fine-tuning of Llama3 large model for intelligent fishery field // Discov Computing. 2025. vol. 28. DOI: 10.1007/s10791-025-09663-6.
24. Ramachandran A. Advancing Retrieval-Augmented Generation (RAG): Innovations, Challenges, and the Future of AI Reasoning. 2025.
25. Bsharat S.M., Myrzakhan A., Shen Z. Principled instructions are all you need for questioning llama-1/2, gpt-3.5/4 // arXiv preprint arXiv:2312.16171. 2023.
26. Hu Y., Lei Z., Zhang Z., Pan B., Ling C., Zhao L. GRAG: Graph Retrieval-Augmented Generation // Findings of the Association for Computational Linguistics: NAACL 2025. 2025. pp. 4145–4157. DOI: 10.18653/v1/2025.findings-naacl.232.
27. Campello R.J.G.B., Moulavi D., Sander J. Density-Based Clustering Based on Hierarchical Density Estimates // Advances in Knowledge Discovery and Data Mining (PAKDD 2013). Lecture Notes in Computer Science. 2013. vol. 7819. pp. 160–172. DOI: 10.1007/978-3-642-37456-2_14.
28. Федоров А.М., Датьев И.О., Вишняков И.Г. Модуль системы мониторинга социальных медиа: извлечение ключевых слов и генерация названий тем // Роспатент: Свидетельство о государственной регистрации программы для ЭВМ № 2025668928 от 21 июля 2025 г.
Опубликован
Как цитировать
Раздел
Copyright (c) Игорь Олегович Датьев, Андрей Михайлович Федоров, Иван Геннадьевич Вишняков

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).