Алгоритм классификации вьетнамского текста с использованием долгой краткосрочной памяти и Word2Vec
Ключевые слова:
классификация текста, естественная языковая обработка, обработка данных, длинная краткосрочная память, Word2VecАннотация
В условиях текущей четвертой промышленной революции вместе с развитием компьютерных технологий увеличивается и количество текстовых данных. Следует понимать природу и характеристики этих данных, чтобы применять необходимые методологии. Автоматическая обработка текста экономит время и ресурсы существующих систем. Классификация текста является одним из основных приложений обработки естественного языка с использованием таких методов, как анализ тональности текста, разметка данных и так далее. В частности, недавние достижения в области глубокого обучения показывают, что эти методы хорошо подходят для классификации документов. Они продемонстрировали свою эффективность в классификации англоязычных текстов. Однако по проблеме классификации вьетнамских текстов существует не так много исследований. Последние созданные модели глубокого обучения для классификации вьетнамского текста показали заметные улучшения, но тем не менее этого недостаточно. Предлагается автоматическая система на основе длинной краткосрочной памяти и Word2Vec моделей, которая повышает точность классификации текстов. Предлагаемая модель продемонстрировала более высокие результаты классификации вьетнамских текстов по сравнению с другими традиционными методами. При оценке данных вьетнамского текста предлагаемая модель показывает точность классификации более 90%, поэтому может быть использована в реальном приложении.
Литература
2. Sak H., Senior A., Beaufays F. Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition // arXiv preprint arXiv:1402.1128.2014.
3. Phuong L.-H., Nguyen H., Roussanaly A., Ho T. A hybrid approach to word segmentation of vietnamese texts // Lecture Notes in Computer Science. 2013. vol. 5196. pp. 240–249.
4. Hoang V.C.D., Dinh D., Nguyen N. le, Ngo H.Q. A comparative study on Vietnamese text classification methods // 2007 IEEE International Conference on Research, Innovation and Vision for the Future. 2007. pp. 267–273.
5. Ngo Q.H., Dien D., Winiwarter W. A hybrid method for word segmentation with english- vietnamese bilingual text // 2013 International Conference on Control, Automation and Information Sciences (ICCAIS). 2013. pp. 48–52.
6. Jindal P., Jindal B. Line and word segmentation of handwritten text documents written in Gurmukhi script using mid point detection technique // 2015 2nd International Con- ference on Recent Advances in Engineering Computational Sciences (RAECS). 2015. pp. 1–6.
7. Gao Y. et al. Wacnet: Word segmentation guided characters aggregation net for scene text spotting with arbitrary shapes // 2019 IEEE International Conference on Image Processing (ICIP). 2019. pp. 3382–3386.
8. Charoenpornsawat P., Schultz T. Improving word segmentation for Thai speech translation // 2008 IEEE Spoken Language Technology Workshop. 2008. pp. 241–244.
9. Yu C. et al. Term extraction from Chinese texts without word segmentation // 2017 IEEE 11th International Conference on Application of Information and Communication Technologies (AICT). 2017. pp. 1–4.
10. Nguyen T., Le A. A hybrid approach to Vietnamese word segmentation // 2016 IEEE RIVF International Conference on Computing Communication Technologies, Research, Innovation, and Vision for the Future (RIVF). 2016. pp. 114–119.
11. Zhang Z. et al. Effective subword segmentation for text comprehension // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2019. vol. 27. no. 11. pp. 1664–1674.
12. Bal A., Saha R. An improved method for handwritten document analysis using segmentation, baseline recognition and writing pressure detection // Procedia Computer Science. 2016. vol. 93. pp. 403–415.
13. Nguyen T.V., Tran H.K., Nguyen T.T.T., Nguyen H. Word segmentation for Vietnamese text categorization: An online corpus approach // RIVF06. 2005. vol. 172. pp. 1–6.
14. Nguyen T., Lung V.D. Extracting the main content of Vietnamese scientific documents based on the structure // Vietnam Journal of Science and Technology (VJST). 2014. vol. 52. no. 3. pp. 269–280.
15. Xiao L., Wang G., Zuo Y. Research on patent text classification based on Word2Vec and LSTM // 2018 11th International Symposium on Computational Intelligence and Design (ISCID). 2018. vol. 01. pp. 71–74.
16. Hassan A., Mahmood A. Efficient deep learning model for text classification based on recurrent and convolutional layers // 2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA). 2017. pp. 1108–1113.
17. Sarkar A., Chatterjee S., Das W., Datta D. Text classification using support vector machine // International Journal of Engineering Science Invention. 2015. vol. 4. no. 11. pp. 33–37.
18. Linh B.K. et al. Vietnamese text classification based on topic modeling // 9th Fundamental and Applied IT Research (FAIR). 2016. vol. 01. pp. 532–537.
19. De T.C., Khang P.N. Classify text with supported vector learning machine and decision tree // Can Tho University Journal of Science. 2012. vol. 21. no. a. pp. 269–280.
20. Radhika K., Bindu K.R. A text classification model using convolution neural network and recurrent neural network // International Journal of Pure and Applied Mathematics. 2018. vol. 119. pp. 1549–1554.
21. Fischer T., Krauss C. Deep learning with long short-term memory networks for financial market predictions // European Journal of Operational Research. 2018. vol. 270. no. 2. pp. 654–669.
22. Sebastiani F. Machine learning in automated text categorization // ACM Computing Surveys. 2001. vol. 34. pp. 1–47.
23. Yasotha R., Charles E.Y.A. Automated text document categorization // 2015 IEEE Seventh International Conference on Intelligent Computing and Information Systems (ICI- CIS). 2015. pp. 522–528.
24. Farhoodi M., Yari A. Applying machine learning algorithms for automatic Persian text classification // 2010 6th International Conference on Advanced In-formation Manage- ment and Service (IMS). 2010. pp. 318–323.
25. Krendzelak M., Jakab F. Text categorization with machine learning and hierarchical structures // 2015 13th International Conference on Emerging eLearning Technologies and Applications (ICETA). 2015. pp. 1–5.
26. Giang N.L., Hien N.M. Classification of Vietnamese documents using support vector machine // VNU Journal of Science: Computer Science and Communication Engineering. 2005. pp. 1–10.
27. Nguyen P., Hong T., Nguyen K., Nguyen N. Deep learning versus traditional classifiers on Vietnamese students’ feedback corpus // 2018 5th NAFOSTED Conference on Information and Computer Science (NICS). 2018. pp. 75–80.
28. Vo Q., Nguyen H., Le B., Nguyen M. Multi-channel LSTM-CNN model for Vietnamese sentiment analysis // 9th International Conference on Knowledge and Systems Engineering (KSE). 2017. pp. 24–29.
29. Vnexpress, The most read Vietnamese newspaper. 2020. URL: https://e.vnexpress.net/ (дата обращения: 05.12.2019).
30. Tuoitre, Tuoitre news. 2020. URL: https://tuoitre.vn/ (дата обращения: 05.12.2019).
31. Thanhnien, Thanhnien online newspaper. 2020. URL: https://thanhnien.vn/a (дата обращения: 05.12.2019).
32. NLD, Nguoilaodong online newspaper. 2020. URL: https://nld.com.vn/ (дата обращения: 05.12.2019).
33. Trung T.V. Python Vietnamese Core NLP Toolkit. 2019. URL: https://github.com/trungtv/pyvi (дата обращения: 05.12.2019).
34. Nguyen D.Q. et al. A fast and accurate Vietnamese word segmenter // Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 2018. pp. 2582–2587.
35. Nguyen D.Q., Verspoor K. An improved neural network model for joint post tagging and dependency parsing // Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies. 2018. pp. 1–11.
36. Nguyen C.-T. et al. Vietnamese word segmentation with CRFs and SVMs: An investigation // Proceedings of the 20th Pacific Asia Conference on Language, Information and Computation 2006. pp. 215–222.
37. Le V.-D. Detailed explanation of Word2Vector Skip-gram. 2015. URL: http://www.programmersought.com/article/8383114826/ (дата обращения: 05.12.2019).
38. Ma L., Zhang Y. Using word2vec to process big text data // 2015 IEEE International Conference on Big Data (Big Data). 2015. pp. 2895–2897.
39. Barazza L. How does Word2Vec’s Skip-Gram work? 2017. URL: https://becominghuman.ai (дата обращения: 19.02.2017).
40. Landthaler J. et al. Extending thesauri using word embedding’s and the inter-section method // ASAIL@ ICAIL. 2017. vol. 8. no. 1. pp. 112–119.
41. An S. Recurrent Neural Networks. 2017. URL: https://www.cc.gatech.edu/ san37/post/dlhc-rnn/ (дата обращения: 10.10.2019).
42. Zhang Y., Wallace B. A sensitivity analysis of (and practitioners’ guide to) convolutional neural networks for sentence classification // arXiv preprint arXiv:1510.03820. 2015.
43. Le V.-D. Vietnamese stopwords, 2015. URL: https://github.com/stopwords/vietnamese- stopwords (дата обращения: 05.12.2019).
44. Ting K.M. Confusion Matrix. Boston // MA: Springer US. 2010. pp. 209–209.
45. Nguyen P., Hong T., Nguyen K., Nguyen N. Deep learning versus traditional classifiers on Vietnamese students’ feedback corpus // 2018 5th NAFOSTED Conference on Information and Computer Science (NICS). 2018. pp. 75–80.
46. Nguyen K.V. et al. UIT-VSFC: Vietnamese students’ feedback corpus for sentiment analysis // 2018 10th International Conference on Knowledge and Systems Engineering (KSE). 2018. pp. 19–24.
47. Van T.P., Thanh T.M. Vietnamese news classification based on bow with key-words extraction and neural network // 2017 21st Asia Pacific Symposium on Intelligent and Evolutionary Systems (IES). 2017. pp. 43–48.
Опубликован
Как цитировать
Раздел
Copyright (c) Хуу Нгуен Фат, Нгуен Тхи Минь Ань
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).