Найти | Информатика и автоматизация

Поиск статей:

Расширенные фильтры

Опубликовано после

Опубликовано до

По автору

Сергей Николаевич Карпович

2015-04-16

Русскоязычный корпус текстов SCTM-ru для построения тематических моделей

123-142

В статье рассматривается задача создания русскоязычного специального корпуса текстов для тестирования алгоритмов вероятностного тематического моделирования. В качестве наполнения корпуса предлагается использовать статьи международного новостного сайта «Русские Викиновости», распространяемого по свободной лицензии CC BY 2.5. Описан этап предварительной обработки и разметки корпуса текстов. Предложена разметка корпуса текстов, содержащая только необходимую в алгоритмах тематического моделирования информацию.

Ирина Сергеевна Кипяткова

2013-02-01

Программно-алгоритмическое обеспечение создания синтаксическо-статистической модели русского языка по текстовому корпусу

332-348

Создание модели языка является одним из этапов обучения системы распознавания слитной речи. В статье описаны алгоритм и разработанные программные средства для создания синтаксическо-статистической модели русского языка по текстовому корпусу. Основными этапами в работе алгоритма являются предварительная обработка текстового материала, создание статистической n-граммной модели языка, дополнение статистической модели n-граммами, полученными в результате синтаксического анализа. Синтаксический анализ позволяет увеличить количество создаваемых в результате обработки текста различных биграмм и тем самым повысить качество модели языка за счет выявления грамматически связанных пар слов. Приводятся результаты тестирования созданных с помощью программного модуля моделей языка по показателям информационной энтропии, коэффициента неопределенности, относительного количества внесловарных слов и совпадений n-грамм.

1 - 2 из 2 результатов

Поиск статей

Импакт-фактор

Разделы

Мы в сети

Обратная связь