Определение поискового спама с использованием метода опорных векторов
Ключевые слова:
поисковый спам, поисковый запрос, машина опорных векторовАннотация
В работе рассматривается классификация поискового спама. Выделяются характерные признаки контента веб-страниц, различающихся для спама и не спама. Предлагается использование метода опорных векторов для определения принадлежности веб-страницы к спаму. Приводятся результаты проведенных экспериментов.Литература
1. Ronzhin A.L., Karpov A.A. Russian voice interface // Pattern Recognition and Image Analysis. 2007. vol. 17. no. 2. С. 321-336.
2. Лицензия на использование поисковой системы Яндекса. URL: http://legal.yandex.ru/termsofuse/ (дата обращения: 13.01.14).
3. Gyongyi Z., Garcia-Molina H. Web Spam Taxonomy // Chiba: First International Workshop on Adversarial Information Retrieval on the Web. 2005. URL: http://infolab.stanford.edu/ (дата обращения: 26.01.2014).
4. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов // Тр. IX Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL’2007). Переславль. 2007. Т. 1. C. 166–174.
5. Золтан Д., Гарсиа-Молина Г. Таксономия веб-спама // Стенфорд: Кафедра информационных технологий Стенфордского университета. URL: http://wseob.ru/seo/web-spam-taxonomy (дата обращения: 20.02.2014).
6. Дорвей // свободная статья из Википедиа. URL: http://www.webeffector.ru/wiki/Дорвей (дата обращения: 20.11.2013).
7. Abernethy J., Chapelle O., Castillo C. WITCH: A new approach to Web spam detection // Proc. Of the 4th Int.Workshop on Adversarial Information Retrieval on the web. Beijing: ACM. 2008. pp. 61–62.
8. Ntoulas A., Najork M., Manasse M., Fetterly D. Detecting spam Web pages through content analysis // Proc. Of the 15th Int. Conference on World Wide Web. Edinburgh: ACM. 2006. pp. 83–92.
9. Biro I., Siklosi D., Szabo J., Benczur A.A. Linked latent Dirichlet allocation in Web spam filtering // Proc. of the 5th Int. Workshop on Adversarial Information Retrieval on the Web. Madrid: ACM. 2009. pp. 37–40.
10. Гречников Е.А., . Гусев Г.,.Кустарев А.А, Райгородский А.М. Поиск неестественных текстов // Тр. XI Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронныеколлекции»: Петрозаводск. 2009. С. 306–308.
11. Павлов А.С., Добров Б.В. Методы обнаружения поискового спама, порожденного с помощью цепей Маркова // Тр. XI Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск. 2009. C. 311–317.
12. Павлов А.С., Добров Б.В. Метод обнаружения массово порожденных неестественных текстов на основе анализа тематической структуры // Тр. XII Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск. 2010. C. 210–218.
13. Романов А.С., Мещеряков Р.В. Идентификация автора текста с помощью аппарата опорных векторов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009» (Бекасово, 27-31 мая 2009 г.). М.: РГГУ 2009. Вып. 8 (15). С. 432–437.
14. Романов А.С., Мещеряков Р.В. Идентификация авторства коротких текстов методами машинного обучения // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). М.: Изд-во РГГУ 2010. Вып. 9 (16). С. 407–413.
15. Романов А.С., Мещеряков Р.В. Определение пола автора короткого электронного сообщения // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 25 - 29 мая 2011 г.). М.: Изд-во РГГУ. 2011. Вып. 10 (17). С. 620–626.
16. Романов А.С., Резанова З.И., Мещеряков Р.В. Методика проверки однородности текста и выявления плагиата на основе метода опорных векторов и фильтра быстрой корреляции // Доклады томского государственного университета систем управления и радиоэлектроники. Томск: Издательство Томского государственного университета систем. 2014. № 2(32). С. 264-269.
17. Karpov A., Kipyatkova I., Ronzhin A. Very Large Vocabulary ASR for Spoken Russian with Syntactic and Morphemic Analysis // In Proc. 12th International Conference INTERSPEECH-2011. ISCA Association. Florence. Italy. 2011. pp. 3161-3164.
2. Лицензия на использование поисковой системы Яндекса. URL: http://legal.yandex.ru/termsofuse/ (дата обращения: 13.01.14).
3. Gyongyi Z., Garcia-Molina H. Web Spam Taxonomy // Chiba: First International Workshop on Adversarial Information Retrieval on the Web. 2005. URL: http://infolab.stanford.edu/ (дата обращения: 26.01.2014).
4. Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для Web-документов // Тр. IX Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (RCDL’2007). Переславль. 2007. Т. 1. C. 166–174.
5. Золтан Д., Гарсиа-Молина Г. Таксономия веб-спама // Стенфорд: Кафедра информационных технологий Стенфордского университета. URL: http://wseob.ru/seo/web-spam-taxonomy (дата обращения: 20.02.2014).
6. Дорвей // свободная статья из Википедиа. URL: http://www.webeffector.ru/wiki/Дорвей (дата обращения: 20.11.2013).
7. Abernethy J., Chapelle O., Castillo C. WITCH: A new approach to Web spam detection // Proc. Of the 4th Int.Workshop on Adversarial Information Retrieval on the web. Beijing: ACM. 2008. pp. 61–62.
8. Ntoulas A., Najork M., Manasse M., Fetterly D. Detecting spam Web pages through content analysis // Proc. Of the 15th Int. Conference on World Wide Web. Edinburgh: ACM. 2006. pp. 83–92.
9. Biro I., Siklosi D., Szabo J., Benczur A.A. Linked latent Dirichlet allocation in Web spam filtering // Proc. of the 5th Int. Workshop on Adversarial Information Retrieval on the Web. Madrid: ACM. 2009. pp. 37–40.
10. Гречников Е.А., . Гусев Г.,.Кустарев А.А, Райгородский А.М. Поиск неестественных текстов // Тр. XI Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронныеколлекции»: Петрозаводск. 2009. С. 306–308.
11. Павлов А.С., Добров Б.В. Методы обнаружения поискового спама, порожденного с помощью цепей Маркова // Тр. XI Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск. 2009. C. 311–317.
12. Павлов А.С., Добров Б.В. Метод обнаружения массово порожденных неестественных текстов на основе анализа тематической структуры // Тр. XII Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». Петрозаводск. 2010. C. 210–218.
13. Романов А.С., Мещеряков Р.В. Идентификация автора текста с помощью аппарата опорных векторов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2009» (Бекасово, 27-31 мая 2009 г.). М.: РГГУ 2009. Вып. 8 (15). С. 432–437.
14. Романов А.С., Мещеряков Р.В. Идентификация авторства коротких текстов методами машинного обучения // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). М.: Изд-во РГГУ 2010. Вып. 9 (16). С. 407–413.
15. Романов А.С., Мещеряков Р.В. Определение пола автора короткого электронного сообщения // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 25 - 29 мая 2011 г.). М.: Изд-во РГГУ. 2011. Вып. 10 (17). С. 620–626.
16. Романов А.С., Резанова З.И., Мещеряков Р.В. Методика проверки однородности текста и выявления плагиата на основе метода опорных векторов и фильтра быстрой корреляции // Доклады томского государственного университета систем управления и радиоэлектроники. Томск: Издательство Томского государственного университета систем. 2014. № 2(32). С. 264-269.
17. Karpov A., Kipyatkova I., Ronzhin A. Very Large Vocabulary ASR for Spoken Russian with Syntactic and Morphemic Analysis // In Proc. 12th International Conference INTERSPEECH-2011. ISCA Association. Florence. Italy. 2011. pp. 3161-3164.
Опубликован
2014-12-16
Как цитировать
Созинова, И. С., Романов, А. С., & Мещеряков, Р. В. (2014). Определение поискового спама с использованием метода опорных векторов. Труды СПИИРАН, 5(36), 78-91. https://doi.org/10.15622/sp.36.5
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).