Количественный анализ лексики английского языка в викисловарях и Wordnet.
Ключевые слова:
вычислительная лингвистика, лексикография, лексический анализ, английский языкАннотация
В работе выполнен количественный анализ лексики английского языка по данным трѐх электронных словарей: Английского Викисловаря, WordNet и Русского Викисловаря. Сравнивается объѐм словарей и распределение слов английского языка по частям речи. Приводится соотношение многозначных слов и слов с одним значением, а также распределение английских слов по числу значений. Эксперименты показывают, что лингвистические ресурсы, созданные как экспертами, так и энтузиастами, подчиняются общим законам.Литература
Cooper M. Measuring the Semantic Distance between Languages from a Statistical Analysis of Bilingual Dictionaries // Journal of Quantitative Linguistics, 2008. т. 15. № 1. C. 1-33.
Ferrer-i-Cancho R. The structure of syntactic dependency networks: insights from recent advances in network theory // In: V. Levickij and G. Altmann (Eds.), Problems of quantitative linguistics, 2005. P.60-75.
Harabagiu S., Moldovan D. A marker-propagation algorithm for text coherence. // In Working Notes of the Workshop on Parallel Processing at the 14th International Joint Conference on Artificial Intelligence. Montreal. 1995. P.76-86.
Krizhanovsky A. A. Transformation of Wiktionary entry structure into tables and relations in a relational database schema. 2010. (по состоянию на 17.11.2011)
Kurmas Z. Zawilinski: a library for studying grammar in Wiktionary. // In: Proceedings of the 6th International Symposium on Wikis and Open Collaboration, Gdansk, Poland, July 2010.
Lin F., Krizhanovsky A. Multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint // In: Proceedings of the 13th Russian Conference on Digital Libraries RCDL’2011. Voronezh, Russia. October, 2011. P.19-26.
Mausam, Soderland S., Etzioni O., Weld D. S., Reiter K., Skinner M., Sammer M., Bilmes J. Panlingual Lexical Translation via Probabilistic Inference // Artificial Intelligence Journal (AIJ). Vol. 174, No. 9-10, 2010. P.619-637.
McFate C., Forbus K. NULEX: An Open-License Broad Coverage Lexicon. (accepted). In: The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, Oregon, USA. June, 2011.
Meyer C. M., Gurevych I. How Web Communities Analyze Human Language: Word Senses in Wiktionary // In: Proceedings of the WebSci10: Extending the Frontiers of Society On-Line, Raleigh, NC: US. April, 2010. (по состоянию на 17.11.2011)
Montoyo A., Palomar M., Rigau G. Method for WordNet enrichment using WSD // In Proceedings of 4th International Conference on Text Speech and Dialogue TSD'2001. Selezna Ruda - Spieak, Czech Republic. Published in Lecture Notes in Artificial Intelligence 2166, Springer-Verlag. 2001
Otte P., Tyers F. M. Rapid rule-based machine translation between Dutch and Afrikaans // In: 16th Annual Conference of the European Association of Machine Translation, EAMT11. 2011.
Qingyue He. Automatic Pronunciation Dictionary Generation from Wiktionary and Wikipedia. // Thesis. Karlsruhe Institute of Technology. 2009.
Resnik P., Yarowsky D. Distinguishing systems and distinguishing senses: new evaluation methods for word sense disambiguation // Natural Language Engineering. Vol. 5, No. 2, 2000. P.113-133.
Teich E., Fankhauser P. WordNet for lexical cohesion analysis // In Proceedings of the Second Global WordNet Conference. Brno, Czech Republic. January, 2004. P.326-331.
Yarowsky D. Unsupervised word sense disambiguation rivaling supervised methods. In Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, MA. 1995. P.189-196.
Ferrer-i-Cancho R. The structure of syntactic dependency networks: insights from recent advances in network theory // In: V. Levickij and G. Altmann (Eds.), Problems of quantitative linguistics, 2005. P.60-75.
Harabagiu S., Moldovan D. A marker-propagation algorithm for text coherence. // In Working Notes of the Workshop on Parallel Processing at the 14th International Joint Conference on Artificial Intelligence. Montreal. 1995. P.76-86.
Krizhanovsky A. A. Transformation of Wiktionary entry structure into tables and relations in a relational database schema. 2010.
Kurmas Z. Zawilinski: a library for studying grammar in Wiktionary. // In: Proceedings of the 6th International Symposium on Wikis and Open Collaboration, Gdansk, Poland, July 2010.
Lin F., Krizhanovsky A. Multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint // In: Proceedings of the 13th Russian Conference on Digital Libraries RCDL’2011. Voronezh, Russia. October, 2011. P.19-26.
Mausam, Soderland S., Etzioni O., Weld D. S., Reiter K., Skinner M., Sammer M., Bilmes J. Panlingual Lexical Translation via Probabilistic Inference // Artificial Intelligence Journal (AIJ). Vol. 174, No. 9-10, 2010. P.619-637.
McFate C., Forbus K. NULEX: An Open-License Broad Coverage Lexicon. (accepted). In: The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, Oregon, USA. June, 2011.
Meyer C. M., Gurevych I. How Web Communities Analyze Human Language: Word Senses in Wiktionary // In: Proceedings of the WebSci10: Extending the Frontiers of Society On-Line, Raleigh, NC: US. April, 2010.
Montoyo A., Palomar M., Rigau G. Method for WordNet enrichment using WSD // In Proceedings of 4th International Conference on Text Speech and Dialogue TSD'2001. Selezna Ruda - Spieak, Czech Republic. Published in Lecture Notes in Artificial Intelligence 2166, Springer-Verlag. 2001
Otte P., Tyers F. M. Rapid rule-based machine translation between Dutch and Afrikaans // In: 16th Annual Conference of the European Association of Machine Translation, EAMT11. 2011.
Qingyue He. Automatic Pronunciation Dictionary Generation from Wiktionary and Wikipedia. // Thesis. Karlsruhe Institute of Technology. 2009.
Resnik P., Yarowsky D. Distinguishing systems and distinguishing senses: new evaluation methods for word sense disambiguation // Natural Language Engineering. Vol. 5, No. 2, 2000. P.113-133.
Teich E., Fankhauser P. WordNet for lexical cohesion analysis // In Proceedings of the Second Global WordNet Conference. Brno, Czech Republic. January, 2004. P.326-331.
Yarowsky D. Unsupervised word sense disambiguation rivaling supervised methods. In Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, MA. 1995. P.189-196.
Опубликован
2011-12-01
Как цитировать
Крижановский, А. А. (2011). Количественный анализ лексики английского языка в викисловарях и Wordnet. Труды СПИИРАН, 4(19), 87-101. https://doi.org/10.15622/sp.19.5
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).