Автоматическое извлечение словарных помет из Русского Викисловаря
Ключевые слова:
вычислительная лингвистика, компьютерная лексикография, русский языкАннотация
Разработана методология извлечения словарных помет из интернет-словарей. В соответствие с этой методологией экспертами построено отображение (соответствие один к одному) системы словарных помет Русского Викисловаря (385 помет) и системы словарных помет Английского Викисловаря (1001 помета). Таким образом, построена интегральная система словарных помет (1096 помет), включающая пометы обоих словарей. Разработан синтаксический анализатор (парсер), который распознаёт и извлекает известные и новые словарные пометы, сокращения и пояснения, указанные в начале текста значений слов в словарных статьях Викисловаря. Следует отметить наличие в парсере большого количества словарных помет известных заранее (385 словарных помет для Русского Викисловаря). С помощью парсера на основе данных Русского Викисловаря была построена база данных машиночитаемого Викисловаря, включающая информацию о словарных пометах. В работе приводятся численные параметры словарных помет в Русском Викисловаре, а именно: с помощью разработанной программы было подсчитано, что в базе данных машиночитаемого Викисловаря к 133 тыс. значений слов приписаны пометы и пояснения; для полутора тысяч значений слов был указан регион употребления слова, подсчитано число словарных помет для разных предметных областей. Вкладом данной работы в компьютерную лексикографию является оценка численных параметров словарных помет в больших словарях (пятьсот тысяч словарных статей).Литература
1. Скляревская Г.Н. Еще раз о проблемах лексикографической стилистики // Вопросы языкознания. 1988. № 3. С. 84-97.
2. Словарь русского языка. Том I. А-Й. // М., 1981. С. 9.
3. Сорокин Ю.С. О нормативно-стилистическом словаре современного русского языка // Вопросы языкознания. 1967. № 5. С. 22-32.
4. Токарчук И.Н. Стилистические параметры в лексикографическом описании служебного слова (на примере частиц) // Вестник ТГПУ. 2012. Т. 1. №. 116. С. 187-191. URL: http://vestnik.tspu.edu.ru/files/PDF/articles/tokarchuk_i._n._187_191_1_116_2012.pdf (дата обращения 2.04.14).
5. Пазельская А.Г., Соловьев А.Н. Метод определения эмоций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 25 – 29 мая 2011 г.). М.: Изд-во РГГУ, 2011. Вып. 10 (17). С. 510-522. URL: http://www.dialog-21.ru/digests/dialog2011/materials/en/pdf/50.pdf (дата обращения 2.04.14).
6. Gonzalez-Agirre A., Castillo M., Rigau G. A graph-based method to improve WordNet Domains // In Proceedings of 13th International Conference on Intelligent Text Processing and Computational Linguistics (CICLING'12). New Delhi, India. 2012. URL: http://adimen.si.ehu.es/~rigau/publications/cicling12-gcr.pdf (дата обращения 2.04.14).
7. Meyer Ch.M., Gurevych I. Wiktionary: A new rival for expert-built lexicons? // там в шаблонеExploring the possibilities of collaborative lexicography. Chapter 13, in Sylviane G., Paquot M. (eds.), Electronic Lexicography, Oxford University Press, Oxford, 2012. pp. 259 – 291.
8. Zesch T., Müller Ch., Gurevych I. Extracting lexical semantic knowledge from Wikipedia and Wiktionary // In Proceedings of the Conference on Language Resources and Evaluation (LREC). 2008. vol. 15.
9. Крижановский А. А. Преобразование структуры словарной статьи Викисловаря в таблицы и отношения реляционной базы данных. Препринт. 2010. URL: http://scipeople.com/publication/100231/ (дата обращения 2.04.14).
10. Смирнов А. В., Круглов В. М., Крижановский А. А., Луговая Н. Б., Карпов А. А., Кипяткова И. С. Количественный анализ лексики русского WordNet и викисловарей // Труды СПИИРАН. 2012. Вып. 23. С. 231–253. URL: http://scipeople.com/publication/113406/ (дата обращения 2.04.14).
11. Henrich V., Hinrichs E., Vodolazova T. Semi-Automatic extension of GermaNet with sense definitions from Wiktionary // In Proceedings of 5th Language & Technology Conference (LTC 2011). Poznan, Poland, 2011. pp. 126-130, URL: http:// www.sfs.uni-tuebingen.de/lsd/documents/publications/Henrich-et-al-2011_GermaNet-Wiktionary-Mapping.pdf (дата обращения 23.02.14).
12. McCrae J., Montiel-Ponsoda E., Cimiano Ph. Integrating WordNet and Wiktionary with lemon // In Conference Proceedings “Linked Data in Linguistics”, 2012. pp. 25 - 34.
13. Meyer Ch.M., Gurevych I. What psycholinguists know about chemistry: Aligning Wiktionary and wordnet for increased domain coverage // In Proceedings of the 5th international joint conference on natural language processing (IJCNLP), Chiang Mai, Thailand, 2011. pp. 883–892.
14. Navigli R, Ponzetto S.P. BabelNet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic network // Artificial Intelligence, 2012. vol. 193, pp 217-250.
15. Adomavicius G., Mobasher B., Ricci F., Tuzhilin A. Context-aware recommender systems // AI Magazine. 2011. vol. 32(3), pp. 67-80. URL: http://www.ise.bgu.ac.il/faculty/liorr/recsyshb/chcontext.pdf (дата обращения 2.04.14).
2. Словарь русского языка. Том I. А-Й. // М., 1981. С. 9.
3. Сорокин Ю.С. О нормативно-стилистическом словаре современного русского языка // Вопросы языкознания. 1967. № 5. С. 22-32.
4. Токарчук И.Н. Стилистические параметры в лексикографическом описании служебного слова (на примере частиц) // Вестник ТГПУ. 2012. Т. 1. №. 116. С. 187-191. URL: http://vestnik.tspu.edu.ru/files/PDF/articles/tokarchuk_i._n._187_191_1_116_2012.pdf (дата обращения 2.04.14).
5. Пазельская А.Г., Соловьев А.Н. Метод определения эмоций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 25 – 29 мая 2011 г.). М.: Изд-во РГГУ, 2011. Вып. 10 (17). С. 510-522. URL: http://www.dialog-21.ru/digests/dialog2011/materials/en/pdf/50.pdf (дата обращения 2.04.14).
6. Gonzalez-Agirre A., Castillo M., Rigau G. A graph-based method to improve WordNet Domains // In Proceedings of 13th International Conference on Intelligent Text Processing and Computational Linguistics (CICLING'12). New Delhi, India. 2012. URL: http://adimen.si.ehu.es/~rigau/publications/cicling12-gcr.pdf (дата обращения 2.04.14).
7. Meyer Ch.M., Gurevych I. Wiktionary: A new rival for expert-built lexicons? // там в шаблонеExploring the possibilities of collaborative lexicography. Chapter 13, in Sylviane G., Paquot M. (eds.), Electronic Lexicography, Oxford University Press, Oxford, 2012. pp. 259 – 291.
8. Zesch T., Müller Ch., Gurevych I. Extracting lexical semantic knowledge from Wikipedia and Wiktionary // In Proceedings of the Conference on Language Resources and Evaluation (LREC). 2008. vol. 15.
9. Крижановский А. А. Преобразование структуры словарной статьи Викисловаря в таблицы и отношения реляционной базы данных. Препринт. 2010. URL: http://scipeople.com/publication/100231/ (дата обращения 2.04.14).
10. Смирнов А. В., Круглов В. М., Крижановский А. А., Луговая Н. Б., Карпов А. А., Кипяткова И. С. Количественный анализ лексики русского WordNet и викисловарей // Труды СПИИРАН. 2012. Вып. 23. С. 231–253. URL: http://scipeople.com/publication/113406/ (дата обращения 2.04.14).
11. Henrich V., Hinrichs E., Vodolazova T. Semi-Automatic extension of GermaNet with sense definitions from Wiktionary // In Proceedings of 5th Language & Technology Conference (LTC 2011). Poznan, Poland, 2011. pp. 126-130, URL: http:// www.sfs.uni-tuebingen.de/lsd/documents/publications/Henrich-et-al-2011_GermaNet-Wiktionary-Mapping.pdf (дата обращения 23.02.14).
12. McCrae J., Montiel-Ponsoda E., Cimiano Ph. Integrating WordNet and Wiktionary with lemon // In Conference Proceedings “Linked Data in Linguistics”, 2012. pp. 25 - 34.
13. Meyer Ch.M., Gurevych I. What psycholinguists know about chemistry: Aligning Wiktionary and wordnet for increased domain coverage // In Proceedings of the 5th international joint conference on natural language processing (IJCNLP), Chiang Mai, Thailand, 2011. pp. 883–892.
14. Navigli R, Ponzetto S.P. BabelNet: The automatic construction, evaluation and application of a wide-coverage multilingual semantic network // Artificial Intelligence, 2012. vol. 193, pp 217-250.
15. Adomavicius G., Mobasher B., Ricci F., Tuzhilin A. Context-aware recommender systems // AI Magazine. 2011. vol. 32(3), pp. 67-80. URL: http://www.ise.bgu.ac.il/faculty/liorr/recsyshb/chcontext.pdf (дата обращения 2.04.14).
Опубликован
2014-06-02
Как цитировать
Крижановский, А. А., Смирнов, А. В., Круглов, В. М., Крижановская, Н. Б., & Кипяткова, И. С. (2014). Автоматическое извлечение словарных помет из Русского Викисловаря. Труды СПИИРАН, 2(33), 164-185. https://doi.org/10.15622/sp.33.9
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).