Метод определения искусственных текстов на основе расчета меры принадлежности к инвариантам
Ключевые слова:
автоматически сгенерированные тексты, искусственные тексты, массовое порождение текстов, текстовые характеристики, атрибуция текстаАннотация
Работа посвящена вопросу идентификации текстов, сгенерированных автоматически (искусственно) с помощью программных алгоритмов. Данная задача является актуальной в связи с ростом распространения таких текстов, распространяемых в Интернете. Создаваемые «копии» веб-страниц используются для привлечения читателей к интернет-ресурсам, а также для распространения большого количества уникальных экземпляров страниц с контентом определенной направленности. В статье описаны особенности определения происхождения текста на примере работы с текстами, порожденными методом синонимизации, как наиболее распространенного метода генерации искусственных текстов, представляющих собой веб-контент. Предложен инвариант искусственно созданных текстов, представляющий собой набор значений текстовых характеристик, который позволяет классифицировать тексты по способу их создания. Предложен метод определения искусственно созданных текстов на основе расчета меры принадлежности входного текста к инвариантам, позволяющий принять решение о происхождении текста. В статье также приведены значения, полученные в ходе проведения серии экспериментов по определению искусственно созданных текстов.Литература
1. Управление ООН по наркотикам и преступности. Использование интернета в террористических целях. С. 3–6. URL: https://www.unodc.org/ docu-ments/terrorism/ Publications/Use_of_Internet_for_Terrorist_Purposes/Use_of_ the_ internet_for_terrorist_ purposes_Russian.pdf (дата обращения: 26.05.2016).
2. SEO-копирайтинг: как приручить поисковик. URL: http://onedesign.pro/upload/ books/11_Kak_priruchit.pdf (дата обращения: 01.06.2016).
3. Павлов А.С., Добров Б.В. Методы обнаружения поискового спама, порожденного с помощью цепей Маркова // Тр. XI Всероссийский научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции. 2009. Т. 1. С. 311–317.
4. Павлов А.С., Добров Б.В. Метод обнаружения массово порожденных неестественных текстов на основе анализа тематической структуры // Вычислительные методы и программирование. 2011. Т. 12. Вып. 3. С. 58–72.
5. Гречников Е.А., Гусев Г.Г., Кустарев А.А., Райгородский А.М. Поиск неестественных текстов // Труды XI всероссийской конференции «Цифровые библиотеки: продвинутые методы и технологии, цифровые коллекции» – RCDL’2009. Петрозаводск. 2009. С. 306–308.
6. Castillo C., Donato D., Becchetti L., Boldi P., Leonardi S., Santini M., Vigna S. A reference collection for web spam // ACM Sigir Forum 2006. 2006. vol. 40. Issue 2. pp. 11–24.
7. Зайцева А.А., Кулешов С.В., Михайлов С.Н. Метод оценки качества текстов в задачах аналитического мониторинга информационных ресурсов // Труды СПИИРАН. 2014. Вып. 37. C. 144–155.
8. Aharoni R., Koppel M., Goldberg Y. Automatic Detection of Machine Translated Text and Translation Quality // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. 2014. vol. 2. P. 289–295.
9. Анисимов А.В., Лиман К.С., МарченкоА.А. Методы вычисления мер семантической близости слов естественного языка // Искусственный интеллект. 2010. №3. С. 170–175.
10. Brocardo M.L., Traore I., Saad S. Woungang I. Authorship Verification for Short Messages using Stylometry // Journal of Computer and System Sciences. 2015. vol. 91. Issue 8. pp. 1429–1440.
11. Zheng R., Li J., Chen H., Huang Z. A Framework for Authorship Identification of Online Messages: Writing-Style Features and Classification Techniques // Journal of the American society for information science and technology. 2006. vol. 57 Issue 3. pp. 378–393.
12. Ragel R.G., Herath P., Senanayake U. Authorship detection of SMS messages using unigrams // Industrial and Information Systems (ICIIS): 8th IEEE International Conference. 2013. pp. 387–392.
13. Brocardo M.L., Traore I., Saad S. Woungang I. Verifying Online User Identity using Stylometric Analysis for Short Messages // Journal of networks. 2014. vol. 9. no. 12. pp. 3347–3355.
14. Романов А.С. Методика идентификации автора текста на основе аппарата опорных векторов // Доклады ТУСУР. 2009. №1(19). Часть 2. С. 36–42.
15. Романов А.С., Резанова З.И., Мещеряков Р.В. Методика проверки однородности текста и выявления плагиата на основе метода опорных векторов и фильтра быстрой корреляции // Доклады ТУСУР. 2014. № 2(32). С. 264–269.
16. Романов А.С., Шелупанов А.А., Мещеряков Р.В. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора текста: Монография. Томск: В-Спектр. 2011. 188 с.
17. Лингвоанализатор. URL: www.rusf.ru/books/analysis (дата обращения: 26.05.2016).
18. Corney M., Anderson A., Mohay G., de Vel O. Identifying the Authors of Suspect Email. URL: http://eprints.qut.edu.au/8021/1/CompSecurityPaper.pdf (дата обращения 26.05.2016).
19. Шумская А.О. Оценка эффективности метрик расстояния Евклида и расстояния Махаланобиса в задачах идентификации происхождения текста // Доклады ТУСУРа. 2013. № 3(29). С. 141–145.
20. Шумская А.О. Идентифицирующие признаки текстовых сообщений при установлении автора // Ползуновский вестник. 2013. № 2. С. 265–266.
21. Шумская А.О. Выбор параметров для идентификации искусственно созданных текстов // Доклады ТУСУРа. 2013. № 2(28). С. 126–128.
22. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов. Приложение: кто был автором «Тихого Дона»? Дополнение 3 к книге Фоменко А.Т. «Методы статистического анализа исторических текстов (приложения к хронологии)» в 2-х томах. М.: Крафт+Леан, 1999. 832+908 с.
23. Валгина Н.С. Теория текста. М.: Логос. 2003. 191 с.
24. Николина Н.А. Филологический анализ текста: учеб. Пособие // М.: Издательский центр "Академия". 2003. 256 с.
25. Напреенко Г.В. Идентификация текста по его авторской принадлежности на лексическом уровне (формально-количественная модель) // Вестник Томского государственного университета. 2014. № 379. С. 17–23.
26. Красса С.И. Методика и инструментарий атрибуции текста в автороведческой экспертизе // Альманах современной науки и образования. 2013. № 10(77). С. 106–108.
27. Романов А.С., Шелупанов А.А., Бондарчук С.С. Обобщенная методика идентификации автора неизвестного текста // Доклады ТУСУР. 2010. № 1(21). Часть 1. С. 108–112.
28. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов. URL: http://rcdl2007.pereslavl.ru/ papers/ paper_65_v1.pdf (дата обращения: 01.06.2016).
29. Некачественные сайты: Чем отличается качественный сайт от некачественного с точки зрения Яндекса? URL: https://yandex.ru/support/webmaster/yandex-indexing/webmaster-advice.xml (дата обращения: 30.09.2016).
2. SEO-копирайтинг: как приручить поисковик. URL: http://onedesign.pro/upload/ books/11_Kak_priruchit.pdf (дата обращения: 01.06.2016).
3. Павлов А.С., Добров Б.В. Методы обнаружения поискового спама, порожденного с помощью цепей Маркова // Тр. XI Всероссийский научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции. 2009. Т. 1. С. 311–317.
4. Павлов А.С., Добров Б.В. Метод обнаружения массово порожденных неестественных текстов на основе анализа тематической структуры // Вычислительные методы и программирование. 2011. Т. 12. Вып. 3. С. 58–72.
5. Гречников Е.А., Гусев Г.Г., Кустарев А.А., Райгородский А.М. Поиск неестественных текстов // Труды XI всероссийской конференции «Цифровые библиотеки: продвинутые методы и технологии, цифровые коллекции» – RCDL’2009. Петрозаводск. 2009. С. 306–308.
6. Castillo C., Donato D., Becchetti L., Boldi P., Leonardi S., Santini M., Vigna S. A reference collection for web spam // ACM Sigir Forum 2006. 2006. vol. 40. Issue 2. pp. 11–24.
7. Зайцева А.А., Кулешов С.В., Михайлов С.Н. Метод оценки качества текстов в задачах аналитического мониторинга информационных ресурсов // Труды СПИИРАН. 2014. Вып. 37. C. 144–155.
8. Aharoni R., Koppel M., Goldberg Y. Automatic Detection of Machine Translated Text and Translation Quality // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. 2014. vol. 2. P. 289–295.
9. Анисимов А.В., Лиман К.С., МарченкоА.А. Методы вычисления мер семантической близости слов естественного языка // Искусственный интеллект. 2010. №3. С. 170–175.
10. Brocardo M.L., Traore I., Saad S. Woungang I. Authorship Verification for Short Messages using Stylometry // Journal of Computer and System Sciences. 2015. vol. 91. Issue 8. pp. 1429–1440.
11. Zheng R., Li J., Chen H., Huang Z. A Framework for Authorship Identification of Online Messages: Writing-Style Features and Classification Techniques // Journal of the American society for information science and technology. 2006. vol. 57 Issue 3. pp. 378–393.
12. Ragel R.G., Herath P., Senanayake U. Authorship detection of SMS messages using unigrams // Industrial and Information Systems (ICIIS): 8th IEEE International Conference. 2013. pp. 387–392.
13. Brocardo M.L., Traore I., Saad S. Woungang I. Verifying Online User Identity using Stylometric Analysis for Short Messages // Journal of networks. 2014. vol. 9. no. 12. pp. 3347–3355.
14. Романов А.С. Методика идентификации автора текста на основе аппарата опорных векторов // Доклады ТУСУР. 2009. №1(19). Часть 2. С. 36–42.
15. Романов А.С., Резанова З.И., Мещеряков Р.В. Методика проверки однородности текста и выявления плагиата на основе метода опорных векторов и фильтра быстрой корреляции // Доклады ТУСУР. 2014. № 2(32). С. 264–269.
16. Романов А.С., Шелупанов А.А., Мещеряков Р.В. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора текста: Монография. Томск: В-Спектр. 2011. 188 с.
17. Лингвоанализатор. URL: www.rusf.ru/books/analysis (дата обращения: 26.05.2016).
18. Corney M., Anderson A., Mohay G., de Vel O. Identifying the Authors of Suspect Email. URL: http://eprints.qut.edu.au/8021/1/CompSecurityPaper.pdf (дата обращения 26.05.2016).
19. Шумская А.О. Оценка эффективности метрик расстояния Евклида и расстояния Махаланобиса в задачах идентификации происхождения текста // Доклады ТУСУРа. 2013. № 3(29). С. 141–145.
20. Шумская А.О. Идентифицирующие признаки текстовых сообщений при установлении автора // Ползуновский вестник. 2013. № 2. С. 265–266.
21. Шумская А.О. Выбор параметров для идентификации искусственно созданных текстов // Доклады ТУСУРа. 2013. № 2(28). С. 126–128.
22. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов. Приложение: кто был автором «Тихого Дона»? Дополнение 3 к книге Фоменко А.Т. «Методы статистического анализа исторических текстов (приложения к хронологии)» в 2-х томах. М.: Крафт+Леан, 1999. 832+908 с.
23. Валгина Н.С. Теория текста. М.: Логос. 2003. 191 с.
24. Николина Н.А. Филологический анализ текста: учеб. Пособие // М.: Издательский центр "Академия". 2003. 256 с.
25. Напреенко Г.В. Идентификация текста по его авторской принадлежности на лексическом уровне (формально-количественная модель) // Вестник Томского государственного университета. 2014. № 379. С. 17–23.
26. Красса С.И. Методика и инструментарий атрибуции текста в автороведческой экспертизе // Альманах современной науки и образования. 2013. № 10(77). С. 106–108.
27. Романов А.С., Шелупанов А.А., Бондарчук С.С. Обобщенная методика идентификации автора неизвестного текста // Доклады ТУСУР. 2010. № 1(21). Часть 1. С. 108–112.
28. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов. URL: http://rcdl2007.pereslavl.ru/ papers/ paper_65_v1.pdf (дата обращения: 01.06.2016).
29. Некачественные сайты: Чем отличается качественный сайт от некачественного с точки зрения Яндекса? URL: https://yandex.ru/support/webmaster/yandex-indexing/webmaster-advice.xml (дата обращения: 30.09.2016).
Опубликован
2016-12-15
Как цитировать
Шумская, А. О. (2016). Метод определения искусственных текстов на основе расчета меры принадлежности к инвариантам. Труды СПИИРАН, 6(49), 104-121. https://doi.org/10.15622/sp.49.6
Раздел
Методы управления и обработки информации
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).