Разработка и исследование статистической модели русского языка
Ключевые слова:
статистическая обработка текста, модель языкаАннотация
В статье описан процесс создания статистической модели русского языка для систем распознавания слитной речи. Дана характеристика собранного текстового корпуса, который сформирован из новостных лент ряда Интернет-сайтов электронных газет, проводится статистический анализ данного корпуса. На основе собранного текстового корпуса созданы униграммная, биграммная и триграммная модели русского языка. Для определения качества этих моделей использованы показатели энтропии и коэффициента неопределенности для этих моделей. Также в статье приведен обзор существующих подходов к созданию статистических моделей языка.Литература
Баглей С.Г., Антонов А.В., Мешков В.С., Суханов А.В. Статистические распределе- ния слов в русскоязычной текстовой коллекции // Материалы междунар. конф. «Диалог 2009». Москва. 2009. С. 13–18.
Горностай Т., Васильев А., Скадиньш Р., Скадиня И. Опыт латышско↔русского машинного перевода // Материалы междунар. конф. «Диалог 2007». Москва. 2007. С. 137–146.
Кипяткова И.С., Карпов А.А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. 2010. № 4(47). С. 2–8.
Кипяткова И.С., Карпов А.А. Модуль фонематического транскрибирования для системы распознавания разговорной русской речи // Искусственный интеллект. 2008. № 4. С. 747–757.
Протасов С.В. Вывод и оценка параметров дальнодействующей триграммной модели языка // Материалы междунар. конф. «Диалог 2008». Москва. 2008. C. 443–449.
Холоденко А.Б. О построении статистических языковых моделей для систем рас- познавания русской речи // Интеллектуальные системы. 2002. Т. 6, вып. 1–4. С. 381–394.
Clarkson P., Rosenfeld R. Statistical language modeling using the CMU-Cambridge toolkit // Proc. of EUROSPEECH. Rhodes. Greece. 1997. P. 2707–2710.
Gelbukh A., Sidorov G. Zipf and Heaps Laws’ Coefficients Depend on Language // Proc. CICLing-2001, Conf. on Intelligent Text Processing and Computational Linguistics. Mexico City. Lecture Notes in Computer Science № 2004. 2001. Springer-Verlag. P. 332–335.
Kurimo M., Hirsimäki T., Turunen V.T., Virpioja S. et al. Unsupervised decomposition of words for speech recognition and retrieval // Proc. of 13th Intern. Conf. SPECOM'2009. St. Petersburg. 2009. P. 23–28.
Merkel A., Klakow D. Improved Methods for Language Model Based Question Classification // Proc. of 8th Interspeech Conf. Antwerpen. 2007. P. 322–325.
Moore G.L. Adaptive Statistical Class-based Language Modelling. PhD thesis. Cambridge University. 2001. 193 p.
Rabiner L., Juang B.-H. Fundamentals of Speech Recognition. Prentice Hall, 1995. 507 p.
Vaičiūnas A. Statistical Language Models of Lithuanian and Their Application to Very Large Vocabulary Speech Recognition. Summary of Doctoral Dissertation. Kaunas: Vytautas Magnus University, 2006. 35 p.
Whittaker E.W.D. Statistical Language Modelling for Automatic Speech Recognition of Russian and English. PhD thesis. Cambridge University. 2000. 140 p.
Горностай Т., Васильев А., Скадиньш Р., Скадиня И. Опыт латышско↔русского машинного перевода // Материалы междунар. конф. «Диалог 2007». Москва. 2007. С. 137–146.
Кипяткова И.С., Карпов А.А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. 2010. № 4(47). С. 2–8.
Кипяткова И.С., Карпов А.А. Модуль фонематического транскрибирования для системы распознавания разговорной русской речи // Искусственный интеллект. 2008. № 4. С. 747–757.
Протасов С.В. Вывод и оценка параметров дальнодействующей триграммной модели языка // Материалы междунар. конф. «Диалог 2008». Москва. 2008. C. 443–449.
Холоденко А.Б. О построении статистических языковых моделей для систем рас- познавания русской речи // Интеллектуальные системы. 2002. Т. 6, вып. 1–4. С. 381–394.
Clarkson P., Rosenfeld R. Statistical language modeling using the CMU-Cambridge toolkit // Proc. of EUROSPEECH. Rhodes. Greece. 1997. P. 2707–2710.
Gelbukh A., Sidorov G. Zipf and Heaps Laws’ Coefficients Depend on Language // Proc. CICLing-2001, Conf. on Intelligent Text Processing and Computational Linguistics. Mexico City. Lecture Notes in Computer Science № 2004. 2001. Springer-Verlag. P. 332–335.
Kurimo M., Hirsimäki T., Turunen V.T., Virpioja S. et al. Unsupervised decomposition of words for speech recognition and retrieval // Proc. of 13th Intern. Conf. SPECOM'2009. St. Petersburg. 2009. P. 23–28.
Merkel A., Klakow D. Improved Methods for Language Model Based Question Classification // Proc. of 8th Interspeech Conf. Antwerpen. 2007. P. 322–325.
Moore G.L. Adaptive Statistical Class-based Language Modelling. PhD thesis. Cambridge University. 2001. 193 p.
Rabiner L., Juang B.-H. Fundamentals of Speech Recognition. Prentice Hall, 1995. 507 p.
Vaičiūnas A. Statistical Language Models of Lithuanian and Their Application to Very Large Vocabulary Speech Recognition. Summary of Doctoral Dissertation. Kaunas: Vytautas Magnus University, 2006. 35 p.
Whittaker E.W.D. Statistical Language Modelling for Automatic Speech Recognition of Russian and English. PhD thesis. Cambridge University. 2000. 140 p.
Опубликован
2010-03-01
Как цитировать
Кипяткова, И. С., & Карпов, А. А. (2010). Разработка и исследование статистической модели русского языка. Труды СПИИРАН, 1(12), 35-49. https://doi.org/10.15622/sp.12.3
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).