Разработка системы для тонового анализа отзывов пользователей портала «AUTOSTRADA.INFO/RU»
Ключевые слова:
автоматический анализ текстов, краулеры, классификация текстов, интеллектуальные транспортные системы, машинное обучение, TF-IDF, наивный байесовский алгоритм, линейный классификатор, анализ тональностиАннотация
В результате анализа выявлено, что социальные сети (Вконтакте, Facebook), тематические сообщества в сетях микроблогинга (Twitter), ресурсы для путешественников (TripAdvisor), транспортные порталы (Autostrada) являются источником актуальной и оперативной информации о дорожно-транспортной обстановке, качестве предоставляемых транспортных услуг и степени удовлетворенности пассажиров уровнем транспортного обслуживания. Однако существующие системы транспортного мониторинга не содержат программных инструментов, способных осуществлять сбор и анализ дорожно-транспортной информации в среде Интернет. В настоящей работе рассматривается задача построения системы автоматического извлечения и классификации дорожно-транспортной информации с транспортных интернет-порталов и апробация разработанной системы для анализа транспортных сетей Крыма и города Севастополя. Для решения этой задачи проанализированы библиотеки с открытым исходным кодом для тематического сбора и исследования данных. Разработан алгоритм для извлечения и анализа текстов. Осуществлена разработка краулера с использованием пакета Scrapy на языке Python3 и собраны отзывы пользователей с портала http://autostrada.info/ru о состоянии транспортной системы Крыма и города Севастополя. Для лемматизации текстов и векторного преобразования текстов были рассмотрены методы tf, idf, tf-idf и их реализация в библиотеке Scikit-Learn: CountVectorizer и TF-IDF Vectorizer. Для обработки текстов были рассмотрены методы Bag-of-Words и n-gram. В ходе разработки модели классификатора рассмотрены наивный байесовский алгоритм (MultinomialNB) и модель линейного классификатора с оптимизацией стохастического градиентного спуска (SGDClassifier). В качестве обучающей выборки использовался корпус объемом 225 тысяч размеченных текстов с ресурса Twitter. Проведено обучение классификатора, в ходе которого использовалась стратегия кросс-валидации и метод ShuffleSplit. Проведено тестирование и сравнение результатов тоновой классификации. По результатам валидации лучшей оказалась линейная модель со схемой n-грамм [1, 3] и векторизатором TF-IDF. В ходе апробации разработанной системы был проведен сбор и анализ отзывов, относящихся к качеству транспортных сетей республики Крым и города Севастополя. Сделаны выводы и определены перспективы дальнейшего функционального развития разрабатываемого инструментария.
Литература
2. Искандеров Ю.М. Интеллектуальные транспортные системы: возможности и особенности применения // Мир дорог. 2013. № 68. С. 38–39.
3. Искандеров Ю.М. Использование инструментария семантических графов с оболочками при создании интеллектуальных транспортных систем // Международная научно-практическая конференция «Интеллектуальные системы на транспорте». 2011. С. 75–82.
4. Искандеров Ю.М. Построение модели интегрированной информационной системы транспортной логистики на основе мультиагентных технологий // Сборник статей Международной научно-практической конференции «Новая экономика и основные направления ее формирования». 2016. С. 62–69.
5. Искандеров Ю.М., Ласкин М.Б., Лебедев И.С. Особенности моделирования транспортно-технологических процессов в цепях поставок // Восьмая Всероссийская научно-практическая конференция «Имитационное моделирование. Теория и практика» (ИММОД-2017). 2017. С. 110–113.
6. Свистунова А.С., Чумак А.С. Интеллектуализация информационного обеспечения процесса перевозки негабаритных грузов // XVII Международная научно-практическая конференция «Логистика: современные тенденции развития». 2018. С. 76–79.
7. Seliverstov Y.A. et al. The method of selecting a preferred route based on subjective criteria // 2017 IEEE II International Conference on Control in Technical Systems (CTS). 2017. p. 126–130.
8. Seliverstov Ya.A. et al. Intelligent systems preventing road traffic accidents in megalopolises in order to evaluate // 2017 20th IEEE International Conference on Soft Computing and Measurements (SCM). 2017. pp. 489–492.
9. Малыгин И.Г., Комашинский В.И., Афонин П.Н. Системный подход к построению когнитивных транспортных систем и сетей // Научно-аналитический журнал «Вестник Санкт-Петербургского университета Государственной противопожарной службы МЧС России». 2015. № 4. С. 68–73.
10. Gal-Tzur A., Rechavi A., Beimel D., Freund S. An improved methodology for extracting information required for transport related decisions from Q & A forums: A case study of TripAdvisor // Travel Behaviour and Society. 2018. vol. 10. pp. 1–9.
11. Chaniotakis E., Antoniou C. Use of Geotagged Social Media in Urban Settings: Empirical Evidence on its Potential from Twitter // 2015 IEEE 18th International Conference on Intelligent Transportation Systems. 2015. pp. 214–219.
12. Kuflik T. et al. Automating a framework to extract and analyse transport related social media content: The potential and the challenges // Transportation Research Part C: Emerging Technologies. 2017. vol. 77. pp. 275–291.
13. Ali F. et al. Fuzzy Ontology-based Sentiment Analysis of Transportation and City Feature Reviews for Safe Traveling // Transportation Research Part C: Emerging Technologies. 2017. vol. 77. pp. 33–48.
14. Nanba H. et al. Automatic compilation of travel information from automatically identified travel blogs // Proceedings of the ACL-IJCNLP 2009 Conference Short Papers. 2009. pp. 205–208.
15. Zhang Z. et al. Final Report. Mining Transportation Information from Social Media for Planned and Unplanned Events // Transportation Informatics, University Transportation Center. 2016. 68 p.
16. Тихомиров И.А. и др. Инструменты анализа научно-технологических заделов России // Труды Института системного анализа Российской академии наук. 2016. Т. 66. № 3. С. 98–104.
17. Ананьева М.И. О проблеме выявления экстремистской направленности в текстах // Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2016. Т. 14. № 4. С. 5–13.
18. Gu Y., Qian Z.S., Chen F. From Twitter to detector: Real-time traffic incident detection using Social Media data // Transportation research part C: emerging technologies. 2016. vol. 67. pp. 321–342.
19. Kuflik T. et al. Automating a framework to extract and analyse transport related Social Media content: The potential and the challenges // Transportation Research Part C: Emerging Technologies. 2017. vol. 77. pp. 275–291.
20. Serna A., Gerrikagoitia J.K., Bernabe U., Ruiz T. A Method to Assess Sustainable Mobility for Sustainable Tourism: The Case of the Public Bike Systems // Information and Communication Technologies in Tourism. 2017. pp. 727–739.
21. Serna A., Gasparovic S. Transport analysis approach based on big data and text mining analysis from social media // Transportation Research Procedia. 2018. vol. 33. pp. 291–298.
22. Блеканов И.С., Бондаренко Д.С. Оценка эффективности методов поиска тематических сообществ в веб-пространстве // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Информатика. Телекоммуникации. Управление. 2010. № 5(108). С. 18–24.
23. Печников А.А., Сотенко Е.М. Программы-краулеры для сбора данных о представительских сайтах заданной предметной области – аналитический обзор // Современные наукоемкие технологии. 2017. № 2. С. 58–62.
24. Отраднов К.К., Раев В.К. Экспериментальное исследование эффективности методик векторизации текстовых документов и алгоритмов их кластеризации // Вестник Рязанского государственного радиотехнического университета. 2018. № 64. С. 73–84.
25. Михайлов Д.В., Козлов А.П., Емельянов Г.М. Выделение знаний и языковых форм их выражения на множестве тематических текстов: подход на основе меры TF-IDF // Компьютерная оптика. 2015. Т. 39. № 3. С. 429–438.
26. Ghaddar B., Naoum-Sawaya J. High dimensional data classification and feature selection using support vector machines // European Journal of Operational Research. 2018. vol. 265. № 3. pp. 993–1004.
27. Rabiner L., Juang B. Fundamentals of Speech Recognition // Prentice Hall. 1993. 507 p.
28. Шелманов А.О. и др. Семантико-синтаксический анализ текстов в задачах вопросно-ответного поиска и извлечения определений // Искусственный интеллект и принятие решений. 2016. № 4. С. 47–61.
29. Кузнецов А.Н., Вышемирский Д.А. Об одном подходе к решению задачи токенизации при анализе больших массивов пользовательских паролей // Безопасность информационных технологий. 2017. № 2. С. 50–60.
30. Рубцова Ю.В. Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы. 2015. № 1. С. 72–78.
31. Мюллер А., Гвидо С. Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными // Альфа-книга. 2017. 393 с.
32. Карякина А.А., Ботов Д.С. Анализ текстов для прогнозирования оттока клиентов Интернет-Провайдера // Челябинский физико-математический журнал. 2018. Т. 3. № 2. С. 227–236.
33. Нугуманова А.Б., Бессмертный И.А., Пецина П., Байбурин Е.М. Обогащение модели Bag of Words семантическими связями для повышения качества классификации текстов предметной области // Программные продукты и системы. 2016. № 2. С. 89–99.
34. Кипяткова И.С. Программно-алгоритмическое обеспечение создания синтаксическо-статистической модели русского языка по текстовому корпусу // Труды СПИИРАН. 2013. № 1(24). С. 332–348.
35. Петровский М.И., Глазкова В.В. Алгоритмы машинного обучения для задачи анализа и рубрикации электронных документов // Вычислительные методы и программирование: новые вычислительные технологии. 2007. Т. 8. № 2. С. 57–69.
36. Сизов А.А., Николенко С.И. Наивный Байесовский классификатор. DOCPLAYER. URL: https://docplayer.ru/45424867-Naivnyy-bayesovskiy-klassifikator.html. (дата обращения: 25.01.2019).
37. Воронцов К.В. Вероятностное тематическое моделированиею URL: http://www.machinelearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf. (дата обращения: 25.01.2019).
38. Воронцов К.В. Лекции по линейным алгоритмам классификации. URL: http://www.machinelearning.ru/wiki/images/6/68/voron-ML-Lin.pdf. (дата обращения: 25.01.2019).
39. Шаграев А.Г., Фальк В.Н. Линейные классификаторы в задаче классификации текстов // Вестник Московского энергетического института. 2013. № 4. С. 204–208.
40. Селиверстов Я.А., Селиверстов С.А. Использование систем класса ГАТЛОСЭМИ для упреждения причин возникновения ДТП и неблагоприятных социальных исходов в «умном городе» // Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Информатика. Телекоммуникации. Управление. 2016. № 1(236). С. 65–81.
41. Ботов Д.С., Кленин Ю.Д., Николаев И.Е. Извлечение информации с использованием нейросетевых моделей языка на примере анализа вакансий в системах онлайн-рекрутмента // Вестник Югорского государственного университета. 2018. № 3(50). С. 37–48.
42. Kim D., Seo D., Cho S., Kang P. Multi-co-training for document classification using various document representations: TF–IDF, LDA, and Doc2Vec // Information Sciences. 2019. vol. 477. pp. 15–29.
43. Liao S. et al. CNN for situations understanding based on sentiment analysis of twitter data // Procedia Computer Science. 2017. vol. 111. pp. 376–381.
44. Lee G. et al. Sentiment classification with word localization based on weakly supervised learning with a convolutional neural network // Knowledge-Based Systems. 2018. vol. 152. pp 70–82.
45. Deng Y., Sander A., Faulstich L., Denecke K. Towards automatic encoding of medical procedures using convolutional neural networks and autoencoders // Artificial Intelligence in Medicine. 2019. vol. 93. pp. 29–42.
46. Alimova I.S., Tutubalina E.V. Entity-level classification of adverse drug reactions: a comparison of neural network models // Proceedings of the Institute for System Programming of the RAS. 2018. vol. 30. no. 5. pp. 177–196.
47. Селиверстов Я.А., Селиверстов С.А. Формальное построение цепочек транспортной активности городского населения // Научно-технические ведомости СПбГПУ. Информатика. Телекоммуникации. Управление. 2015. № 4(224). С. 91–104.
48. Селиверстов С.А., Селиверстов Я.А. Обзор показателей транспортной обеспеченности мегаполиса // Вестник гражданских инженеров. 2015. № 5(52). С. 237–247.
49. Селиверстов С.А., Селиверстов Я.А. О методе оценки эффективности организации процесса дорожного движения мегаполиса // Вестник транспорта Поволжья. 2015. № 2(50). С. 91–96.
Опубликован
Как цитировать
Раздел
Copyright (c) 2019 Ярослав Александрович Селиверстов, Виктория Игоревна Чигур, Арсений Михайлович Сазанов, Святослав Александрович Селиверстов, Александра Свистунова
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).