Эффективный алгоритм классификации естественного языка обнаружения повторяющихся контролируемых признаков
Ключевые слова:
кластеризация, информационный поиск, функция TF-IDF, Par2Vec, тексты на естественном языке, лексические подходыАннотация
Эта статья фокусируется на том, чтобы уловить смысл значения текстовых функций понимания естественного языка (NLU) для обнаружения дубликатов неконтролируемых признаков. Особенности NLU сравниваются с лексическими подходами для доказательства подходящей методики классификации. Подход трансфертного обучения используется для обучения извлечению признаков в задаче семантического текстового сходства (STS). Все функции оцениваются с помощью двух типов наборов данных, которые принадлежат отчетам об ошибках Bosch и статьям Википедии. Цель данного исследованияструктурировать последние исследовательские усилия путем сравнения концепций NLU для описания семантики текста и применения их к IR. Основным вкладом данной работы является сравнительное исследование измерений семантического сходства. Экспериментальные результаты демонстрируют результаты функции Term Frequency–Inverse Document Frequency (TF-IDF) для обоих наборов данных с разумным объемом словаря. Это указывает на то, что двунаправленная долговременная кратковременная память (BiLSTM) может изучать структуру предложения для улучшения классификации.
Литература
2. Keersmaekers, A. Creating a richly annotated corpus of papyrological Greek: The possibilities of natural language processing approaches to a highly inflected historicallanguage. Digital Scholarship in The Humanities. 2019.
3. Pajak, B., Fine, A., Kleinschmidt, D., & Jaeger, Learning Additional Languages as Hierarchical Probabilistic Inference: Insights from First Language Processing. Language Learning, 66(4), pp. 900–944. 2016.
4. Merkx, D., & Frank, S. Learning semantic sentence representations from a visually grounded language without lexical knowledge. Natural Language Engineering, 25(4), pp. 451–466. 2019.
5. Huang, F., Ahuja, A., Downey, D., Yang, Y., Guo, Y., & Yates, A. (2014). Learning Representations for Weakly Supervised Natural Language Processing Tasks. Computational Linguistics, 40(1), pp. 85–120.
6. Kozachok, A. V., Kopylov, S. A., Meshcheryakov, R. V., Evsutin, O. O., & Tuan, L. M. An approach to a robust watermark extraction from images containing text. SPIIRAS Proceedings, 5(60), 128 p. 2018.
7. Nazari, P., Khorram, E., & Tarzanagh, D. Adaptive online distributed optimization in dynamic environments. Optimization Methods and Software, pp. 1–25. 2019.
8. Altaf, S., Waseem, M., & Kazmi, L. IDCUP Algorithm to Classifying Arbitrary Shapes and Densities for Center-based Clustering Performance Analysis. Interdisciplinary Journal of Information, Knowledge, And Management, 15, pp. 91 – 108. 2020.
9. Chen, R., Dai, R., & Wang, M. Transcription Factor Bound Regions Prediction: Word2Vec Technique with Convolutional Neural Network. Journal of Intelligent LearningSystems and Applications, 12(01), pp. 1–13. 2020.
10. Mitra, B., & Craswell, N. An Introduction to Neural Information Retrieval t. Foun-dations And Trends, In Information Retrieval, 13(1), pp. 1-126. 2018.
11. Savyanavar, P., & Mehta, B. Multi-Document Summarization Using TF-IDF Algorithm. International Journal of Engineering and Computer Science. 2016.
12. Liang, P. Learning executable semantic parsers for natural language understanding. Com-munications of the ACM, 59(9), pp. 68–76. 2016.
13. Berant, J., & Liang, P. Imitation Learning of Agenda-based Semantic Parsers. Transactions Of the Association for Computational Linguistics, 3, pp. 545–558. 2015.
14. Merkx, D., & Frank, S. Learning semantic sentence representations from a visually grounded language without lexical knowledge. Natural Language Engineering, 25(4), pp. 451–466. 2019.
15. Roberts, L. Individual Differences in Second Language Sentence Processing. Language Learning, 62, pp. 172–188. 2012.
16. Dontsov, D. O. Algorithm of thesaurus extension generation for enterprise search. SPIIRAS Proceedings, 7(30), 189 p. 2014.
17. Aswani Kumar, C., Radvansky, M., & Annapurna, J. Analysis of a Vector Space Model, Latent Semantic Indexing and Formal Concept Analysis for Information Retrieval. Cybernetics And Information Technologies, 12(1), pp. 34–48. 2012.
18. Ch, A. (2006). Latent Semantic Indexing based Intelligent Information Retrieval System for Digital Libraries. Journal Of Computing and Information Technology.
19. Susanto, G., & Purwanto, H. Information Retrieval Menggunakan Latent Semantic Indexing Pada Ebook. SMATIKA JURNAL, 8(02), pp. 74–79. 2018.
20. Blynova, N. Latent semantic indexing (LSI) and its impact on copywriting. Communications And Communicative Technologies, (19), pp. 4–12. 2019.
21. Rataj, Karolina. “Electrophysiology of Semantic Violations and Lexical Ambiguity Resolution in Bilingual Sentence Processing.” Bilingual Lexical Ambiguity Resolution, pp. 250–72. 2020.
22. Qu, C., Yang, L., Qiu, M., Croft, W. B., Zhang, Y., & Iyyer, M. BERT with History Answer Embedding for Conversational Question Answering. Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. 2019.
23. Ghavidel, H., Zouaq, A., & Desmarais, M. Using BERT and XLNET for the Automatic Short Answer Grading Task. Proceedings of the 12th International Conference on Computer Supported Education. 2020.
24. Choi, E., He, H., Iyyer, M., Yatskar, M., Yih, W., Choi, Y., Zettlemoyer, L. QuAC: Question Answering in Context. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018.
25. Reddy, S., Chen, D., & Manning, C. D. CoQA: A Conversational Question Answering Challenge. Transactions of the Association for Computational Linguistics, 7, pp. 249–266. 2019.
26. Sur, C. RBN: Enhancement in language attribute prediction using global representation of natural language transfer learning technology like Google BERT. SN Applied Sciences, 2(1). 2019.
Опубликован
Как цитировать
Раздел
Copyright (c) Saud Altaf, Unknown, Unknown
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).