Количественный анализ лексики русского WordNet и викисловарей
Ключевые слова:
вычислительная лингвистика, лексикография, лексический анализ, русский языкАннотация
В работе выполнен количественный анализ лексики русского языка по данным тезауруса Русский WordNet и двух электронных словарей (Русский Викисловарь и Английский Викисловарь). Сравнивается объём словарей и распределение слов русского языка по частям речи. Приводится соотношение многозначных слов и слов с одним значением, а также распределение русских слов по числу значений. Анализ распределения числа значений выявил проблему Английского Викисловаря – отсутствие или недостаточная проработка многозначных русских слов с числом значений больше четырёх (по сравнению со словами Русского Викисловаря). Эксперименты показывают, что лингвистические ресурсы, созданные энтузиастами, демонстрируют те же закономерности, что и традиционные словари.Литература
Cooper M. Measuring the Semantic Distance between Languages from a Statistical Analysis of Bilingual Dictionaries // Journal of Quantitative Linguistics, 2008. т. 15. № 1. C. 1-33
Declerck T., Morth K., Lendvai P. Accessing and standardizing Wiktionary lexical entries for the translation of labels in Cultural Heritage taxonomies // In: Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12). Istanbul, Turkey. May 23-25, 2012. Pp. 2511-2514
Esuli A., Sebastiani F. SentiWordNet: A publicly available lexical resource for opinion mining // In: Proceedings of Language Resources and Evaluation (LREC), 2006
Гельфейнбейн И. Г., Гончарук А. В., Лехельт В. П., Липатов А. А., Шило В. В. Автоматический перевод семантической сети WordNet на русский язык // Труды Международного семинара Диалог по компьютерной лингвистике и её приложениям, Протвино, Россия, 2003
Крижановский А. А. Количественный анализ лексики английского языка в викисловарях и Wordnet // Труды СПИИРАН. 2011. Вып. 19. С. 87–101
Krizhanovsky A. A. Transformation of Wiktionary entry structure into tables and relations in a relational database schema. 2010. (по состоянию на 23.09.2012)
Kurmas Z. Zawilinski: a library for studying grammar in Wiktionary. // In: Proceedings of the 6th International Symposium on Wikis and Open Collaboration, Gdansk, Poland, July 2010
Lin F., Krizhanovsky A. Multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint // In: Proceedings of the 13th Russian Conference on Digital Libraries RCDL’2011. Voronezh, Russia. October, 2011. P. 19-26
Лукашевич Н. В. Тезаурусы в задачах информационного поиска. // М.: Издательство Московского университета, 2011. 512 с.
Mausam Soderland S., Etzioni O., Weld D. S., Reiter K., Skinner M., Sammer M., Bilmes J. Panlingual Lexical Translation via Probabilistic Inference // Artificial Intelligence Journal (AIJ). Vol. 174, No. 9-10, 2010. P. 619-637
McFate C., Forbus K. NULEX: An Open-License Broad Coverage Lexicon. In: The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, Oregon, USA. June, 2011. Vol. 2. Pp. 363-367
Medero J., Ostendorf M. Analysis of vocabulary difficulty using wiktionary // In: Proceedings SLaTE Workshop, 2009
Meyer C. M., Gurevych I. How Web Communities Analyze Human Language: Word Senses in Wiktionary // In: Proceedings of the WebSci10: Extending the Frontiers of Society On-Line, Raleigh, NC: US. April, 2010
Meyer C. M., Gurevych I. Wiktionary: a new rival for expert-built lexicons? Exploring the possibilities of collaborative lexicography // Electronic Lexicography. Oxford: Oxford University Press. 2012. (to appear)
Otte P., Tyers F. M. Rapid rule-based machine translation between Dutch and Afrikaans // In: 16th Annual Conference of the European Association of Machine Translation, EAMT11. 2011
Panchenko A., Adeykin S., Romanov P., Romanov A. Extraction of Semantic Relations between Concepts with KNN Algorithms on Wikipedia // In: Concept Discovery in Unstructured Data Workshop (CDUD) of International Conference On Formal Concept Analysis, Belgium, 2012. P. 78-88
Qingyue He. Automatic Pronunciation Dictionary Generation from Wiktionary and Wikipedia. // Thesis. Karlsruhe Institute of Technology. 2009
Schlippe T., Ochs S., Schultz T. Wiktionary as a Source for Automatic Pronunciation Extraction // In: Proceedings of the 11th Annual Conference of Interspeech, Makuhari, Japan, 2010. Pp. 2290-2293
Soderland S., Lim C., Mausam Bo Qin, Etzioni O., Pool J. Lemmatic machine translation // In: Proceedings of Machine Translation Summit XII, Ottawa, Canada, 2009
Старостин С. А. Сравнительно-историческое языкознание и лексикостатистика // Лингвистическая реконструкция и древнейшая история Востока. Материалы к дискуссиям на Международной конференции. Москва, 29 мая - 2 июня, 1989
Declerck T., Morth K., Lendvai P. Accessing and standardizing Wiktionary lexical entries for the translation of labels in Cultural Heritage taxonomies // In: Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12). Istanbul, Turkey. May 23-25, 2012. Pp. 2511-2514
Esuli A., Sebastiani F. SentiWordNet: A publicly available lexical resource for opinion mining // In: Proceedings of Language Resources and Evaluation (LREC), 2006
Гельфейнбейн И. Г., Гончарук А. В., Лехельт В. П., Липатов А. А., Шило В. В. Автоматический перевод семантической сети WordNet на русский язык // Труды Международного семинара Диалог по компьютерной лингвистике и её приложениям, Протвино, Россия, 2003
Крижановский А. А. Количественный анализ лексики английского языка в викисловарях и Wordnet // Труды СПИИРАН. 2011. Вып. 19. С. 87–101
Krizhanovsky A. A. Transformation of Wiktionary entry structure into tables and relations in a relational database schema. 2010.
Kurmas Z. Zawilinski: a library for studying grammar in Wiktionary. // In: Proceedings of the 6th International Symposium on Wikis and Open Collaboration, Gdansk, Poland, July 2010
Lin F., Krizhanovsky A. Multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint // In: Proceedings of the 13th Russian Conference on Digital Libraries RCDL’2011. Voronezh, Russia. October, 2011. P. 19-26
Лукашевич Н. В. Тезаурусы в задачах информационного поиска. // М.: Издательство Московского университета, 2011. 512 с.
Mausam Soderland S., Etzioni O., Weld D. S., Reiter K., Skinner M., Sammer M., Bilmes J. Panlingual Lexical Translation via Probabilistic Inference // Artificial Intelligence Journal (AIJ). Vol. 174, No. 9-10, 2010. P. 619-637
McFate C., Forbus K. NULEX: An Open-License Broad Coverage Lexicon. In: The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, Oregon, USA. June, 2011. Vol. 2. Pp. 363-367
Medero J., Ostendorf M. Analysis of vocabulary difficulty using wiktionary // In: Proceedings SLaTE Workshop, 2009
Meyer C. M., Gurevych I. How Web Communities Analyze Human Language: Word Senses in Wiktionary // In: Proceedings of the WebSci10: Extending the Frontiers of Society On-Line, Raleigh, NC: US. April, 2010
Meyer C. M., Gurevych I. Wiktionary: a new rival for expert-built lexicons? Exploring the possibilities of collaborative lexicography // Electronic Lexicography. Oxford: Oxford University Press. 2012. (to appear)
Otte P., Tyers F. M. Rapid rule-based machine translation between Dutch and Afrikaans // In: 16th Annual Conference of the European Association of Machine Translation, EAMT11. 2011
Panchenko A., Adeykin S., Romanov P., Romanov A. Extraction of Semantic Relations between Concepts with KNN Algorithms on Wikipedia // In: Concept Discovery in Unstructured Data Workshop (CDUD) of International Conference On Formal Concept Analysis, Belgium, 2012. P. 78-88
Qingyue He. Automatic Pronunciation Dictionary Generation from Wiktionary and Wikipedia. // Thesis. Karlsruhe Institute of Technology. 2009
Schlippe T., Ochs S., Schultz T. Wiktionary as a Source for Automatic Pronunciation Extraction // In: Proceedings of the 11th Annual Conference of Interspeech, Makuhari, Japan, 2010. Pp. 2290-2293
Soderland S., Lim C., Mausam Bo Qin, Etzioni O., Pool J. Lemmatic machine translation // In: Proceedings of Machine Translation Summit XII, Ottawa, Canada, 2009
Старостин С. А. Сравнительно-историческое языкознание и лексикостатистика // Лингвистическая реконструкция и древнейшая история Востока. Материалы к дискуссиям на Международной конференции. Москва, 29 мая - 2 июня, 1989
Опубликован
2012-12-01
Как цитировать
Смирнов, А. В., Круглов, В. М., Крижановский, А. А., Луговая, Н. Б., Карпов, А. А., & Кипяткова, И. С. (2012). Количественный анализ лексики русского WordNet и викисловарей. Труды СПИИРАН, 4(23), 232-253. https://doi.org/10.15622/sp.23.13
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).