TY - JOUR
AU - Хуу Нгуен Фат
AU - Нгуен Тхи Минь Ань
PY - 2020/12/04
Y2 - 2024/07/22
TI - Алгоритм классификации вьетнамского текста с использованием долгой краткосрочной памяти и Word2Vec
JF - Информатика и автоматизация
JA - ИА
VL - 19
IS - 6
SE - Искусственный интеллект, инженерия данных и знаний
DO - 10.15622/ia.2020.19.6.5
UR - http://ia.spcras.ru/index.php/sp/article/view/13284
AB - В условиях текущей четвертой промышленной революции вместе с развитием компьютерных технологий увеличивается и количество текстовых данных. Следует понимать природу и характеристики этих данных, чтобы применять необходимые методологии. Автоматическая обработка текста экономит время и ресурсы существующих систем. Классификация текста является одним из основных приложений обработки естественного языка с использованием таких методов, как анализ тональности текста, разметка данных и так далее. В частности, недавние достижения в области глубокого обучения показывают, что эти методы хорошо подходят для классификации документов. Они продемонстрировали свою эффективность в классификации англоязычных текстов. Однако по проблеме классификации вьетнамских текстов существует не так много исследований. Последние созданные модели глубокого обучения для классификации вьетнамского текста показали заметные улучшения, но тем не менее этого недостаточно. Предлагается автоматическая система на основе длинной краткосрочной памяти и Word2Vec моделей, которая повышает точность классификации текстов. Предлагаемая модель продемонстрировала более высокие результаты классификации вьетнамских текстов по сравнению с другими традиционными методами. При оценке данных вьетнамского текста предлагаемая модель показывает точность классификации более 90%, поэтому может быть использована в реальном приложении.
ER -