Программно-алгоритмическое обеспечение создания синтаксическо-статистической модели русского языка по текстовому корпусу
Ключевые слова:
автоматическое распознавание речи, статистическая модель языка, синтаксический анализ,Аннотация
Создание модели языка является одним из этапов обучения системы распознавания слитной речи. В статье описаны алгоритм и разработанные программные средства для создания синтаксическо-статистической модели русского языка по текстовому корпусу. Основными этапами в работе алгоритма являются предварительная обработка текстового материала, создание статистической n-граммной модели языка, дополнение статистической модели n-граммами, полученными в результате синтаксического анализа. Синтаксический анализ позволяет увеличить количество создаваемых в результате обработки текста различных биграмм и тем самым повысить качество модели языка за счет выявления грамматически связанных пар слов. Приводятся результаты тестирования созданных с помощью программного модуля моделей языка по показателям информационной энтропии, коэффициента неопределенности, относительного количества внесловарных слов и совпадений n-грамм.Литература
Антонова А.А., Мисюрев А.В. Об использовании синтаксического анализатора Cognitive Dwarf 2.0 // Труды ИСА РАН. Т 38, 2008. С 91-109
Библиотека синтаксического анализа текста RCO Syntactic Engine SDK. http://www.rco.ru/product.asp?ob_no=15 (дата обращения: 15.01.2013)
Джелинек Ф. Распознавание непрерывной речи статистическими методами // ТИИЭР, 1976. Т. 64. № 4. С. 131-160
Дружкин К.Ю., Цинман Л.Л. Синтаксический анализатор лингвистического процессора ЭТАП-3: Эксперименты по ранжированию // Материалы международной конференции «Диалог 2008». Москва, 2008
Зализняк А.А. Грамматический словарь русского языка: Словоизменение // 4-е изд., испр. и доп. М.: Руские словари, 2003
Кагиров И.А., Леонтьева Ан.Б. Автоматический синтаксический анализ русских текстов на основе грамматики составляющих // Известия вузов. Приборостроение, 2008. Т. 51, № 11. С. 47-51
Кипяткова И.С. Комплекс программных средств обработки и распознавания разговорной русской речи // Информационно-управляющие системы, 2011. № 4(53), С. 53-59
Кипяткова И.С., Карпов А.А. Разработка и исследование статистической модели русского языка // Труды СПИИРАН. СПб: СПИИРАН, 2010. №1(12). С. 35-49
Кипяткова И.С., Карпов А.А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. СПб: СПбГУАП, 2010. № 4(47). С. 2-8
Кипяткова И.С., Карпов А.А. Эксперименты по распознаванию слитной русской речи с использованием сверхбольшого словаря // Труды СПИИРАН. СПб: СПИИРАН, 2010. №1(12). С. 63-74
Леонтьева Ал.Б., Кипяткова И.С. Учет особенностей спонтанной речи при создании систем автоматического распознавания // Известия вузов. Приборостроение, 2008. Т. 51. № 11. С. 51-56
Протасов С.В. Вывод и оценка параметров дальнодействующей триграммной модели языка // Материалы международной конференции «Диалог 2008». Москва, 2008. C. 443-449
Ронжин Ал.Л., Ронжин Ан.Л. Система аудиовизуального мониторинга участников совещания в интеллектуальном зале // Доклады ТУСУРа, 2011. № 1 (22), часть 1. С. 153-157
Сайт компании «ООО Диктум». http://www.dictum.ru/ (дата обращения: 15.01.2013)
Сокирко А.В. Морфологические модули на сайте www.aot.ru // Труды Международной конференции «Диалог-2004. Компьютерная лингвистика и интеллектуальные технологии». М.: Наука, 2004. С. 559-564
Старостин А.С., Мальковский М.Г. Алгоритм синтаксического анализа, используемый в системе морфо-синтаксического анализа «Treeton» // Материалы международной конференции «Диалог 2007». Москва, 2007. С. 516-524
Холоденко А.Б. О построении статистических языковых моделей для систем распознавания русской речи // Интеллектуальные системы, 2002. Т.6. Вып. 1-4. С. 381-394
Шеннон К. Работы по теории информации и кибернетике. М.: Изд. иностр. лит., 2002
Chelba C., Jelinek F. Structured language model // Computer Speech and Language, 2000. Vol. 10. pp. 283-332
Clarkson P., Rosenfeld R. Statistical language modeling using the CMU-Cambridge toolkit // Proc. of EUROSPEECH. Rhodes. Greece, 1997. pp. 2707–2710
Kurimo M., Hirsimäki T., Turunen V.T., Virpioja S., Raatikainen N. Unsupervised decomposition of words for speech recognition and retrieval // In Proceedings of 13-th International Conference «Speech and Computer» SPECOM'2009. St. Petersburg, 2009. pp. 23-28
Merkel A., Klakow D. Improved Methods for Language Model Based Question Classification // Proceedings of 8th Interspeech Conference. Antwerp, 2007. pp. 322-325
Moore G.L. Adaptive Statistical Class-based Language Modelling // PhD thesis. Cambridge University, 2001. 193 p.
Rabiner L., Juang B.H. Fundamentals of Speech Recognition. Prentice Hall. 1993. 507 p.
Sidorov G., Velasquez F., Stamatatos E., Gelbukh A., Chanona-Hernández L. Syntactic Dependency-based N-grams as Classification Features, Springer LNAI 7630, Mexico, 2012. pp. 1-11
Szarvas M., Furui S. Finite-state transducer based modeling of morphosyntax with applications to Hungarian LVCSR // Proc. ICASSP’2003, Hong Kong, China, 2003. pp. 368–371
The CMU Statistical Language Modeling (SLM) Toolkit. http://www.speech.cs.cmu.edu/SLM_info.html (дата обращения: 15.10.2012)
Vaičiūnas A. Statistical Language Models of Lithuanian and Their Application to Very Large Vocabulary Speech Recognition // Summary of Doctoral Dissertation. Vytautas Magnus University. Kaunas, 2006. 35 p.
Whittaker E.W.D. Statistical Language Modelling for Automatic Speech Recognition of Russian and English // PhD thesis. Cambridge University, 2000. 140 p.
Библиотека синтаксического анализа текста RCO Syntactic Engine SDK. http://www.rco.ru/product.asp?ob_no=15 (дата обращения: 15.01.2013)
Джелинек Ф. Распознавание непрерывной речи статистическими методами // ТИИЭР, 1976. Т. 64. № 4. С. 131-160
Дружкин К.Ю., Цинман Л.Л. Синтаксический анализатор лингвистического процессора ЭТАП-3: Эксперименты по ранжированию // Материалы международной конференции «Диалог 2008». Москва, 2008
Зализняк А.А. Грамматический словарь русского языка: Словоизменение // 4-е изд., испр. и доп. М.: Руские словари, 2003
Кагиров И.А., Леонтьева Ан.Б. Автоматический синтаксический анализ русских текстов на основе грамматики составляющих // Известия вузов. Приборостроение, 2008. Т. 51, № 11. С. 47-51
Кипяткова И.С. Комплекс программных средств обработки и распознавания разговорной русской речи // Информационно-управляющие системы, 2011. № 4(53), С. 53-59
Кипяткова И.С., Карпов А.А. Разработка и исследование статистической модели русского языка // Труды СПИИРАН. СПб: СПИИРАН, 2010. №1(12). С. 35-49
Кипяткова И.С., Карпов А.А. Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка системы распознавания русской речи // Информационно-управляющие системы. СПб: СПбГУАП, 2010. № 4(47). С. 2-8
Кипяткова И.С., Карпов А.А. Эксперименты по распознаванию слитной русской речи с использованием сверхбольшого словаря // Труды СПИИРАН. СПб: СПИИРАН, 2010. №1(12). С. 63-74
Леонтьева Ал.Б., Кипяткова И.С. Учет особенностей спонтанной речи при создании систем автоматического распознавания // Известия вузов. Приборостроение, 2008. Т. 51. № 11. С. 51-56
Протасов С.В. Вывод и оценка параметров дальнодействующей триграммной модели языка // Материалы международной конференции «Диалог 2008». Москва, 2008. C. 443-449
Ронжин Ал.Л., Ронжин Ан.Л. Система аудиовизуального мониторинга участников совещания в интеллектуальном зале // Доклады ТУСУРа, 2011. № 1 (22), часть 1. С. 153-157
Сайт компании «ООО Диктум». http://www.dictum.ru/ (дата обращения: 15.01.2013)
Сокирко А.В. Морфологические модули на сайте www.aot.ru // Труды Международной конференции «Диалог-2004. Компьютерная лингвистика и интеллектуальные технологии». М.: Наука, 2004. С. 559-564
Старостин А.С., Мальковский М.Г. Алгоритм синтаксического анализа, используемый в системе морфо-синтаксического анализа «Treeton» // Материалы международной конференции «Диалог 2007». Москва, 2007. С. 516-524
Холоденко А.Б. О построении статистических языковых моделей для систем распознавания русской речи // Интеллектуальные системы, 2002. Т.6. Вып. 1-4. С. 381-394
Шеннон К. Работы по теории информации и кибернетике. М.: Изд. иностр. лит., 2002
Chelba C., Jelinek F. Structured language model // Computer Speech and Language, 2000. Vol. 10. pp. 283-332
Clarkson P., Rosenfeld R. Statistical language modeling using the CMU-Cambridge toolkit // Proc. of EUROSPEECH. Rhodes. Greece, 1997. pp. 2707–2710
Kurimo M., Hirsimäki T., Turunen V.T., Virpioja S., Raatikainen N. Unsupervised decomposition of words for speech recognition and retrieval // In Proceedings of 13-th International Conference «Speech and Computer» SPECOM'2009. St. Petersburg, 2009. pp. 23-28
Merkel A., Klakow D. Improved Methods for Language Model Based Question Classification // Proceedings of 8th Interspeech Conference. Antwerp, 2007. pp. 322-325
Moore G.L. Adaptive Statistical Class-based Language Modelling // PhD thesis. Cambridge University, 2001. 193 p.
Rabiner L., Juang B.H. Fundamentals of Speech Recognition. Prentice Hall. 1993. 507 p.
Sidorov G., Velasquez F., Stamatatos E., Gelbukh A., Chanona-Hernández L. Syntactic Dependency-based N-grams as Classification Features, Springer LNAI 7630, Mexico, 2012. pp. 1-11
Szarvas M., Furui S. Finite-state transducer based modeling of morphosyntax with applications to Hungarian LVCSR // Proc. ICASSP’2003, Hong Kong, China, 2003. pp. 368–371
The CMU Statistical Language Modeling (SLM) Toolkit. http://www.speech.cs.cmu.edu/SLM_info.html (дата обращения: 15.10.2012)
Vaičiūnas A. Statistical Language Models of Lithuanian and Their Application to Very Large Vocabulary Speech Recognition // Summary of Doctoral Dissertation. Vytautas Magnus University. Kaunas, 2006. 35 p.
Whittaker E.W.D. Statistical Language Modelling for Automatic Speech Recognition of Russian and English // PhD thesis. Cambridge University, 2000. 140 p.
Опубликован
2013-02-01
Как цитировать
Кипяткова, И. С. (2013). Программно-алгоритмическое обеспечение создания синтаксическо-статистической модели русского языка по текстовому корпусу. Труды СПИИРАН, 1(24), 332-348. https://doi.org/10.15622/sp.24.20
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).