Метод сглаживания вероятностей n-грамм на основе моделирования математического ожидания их встречаемости
Ключевые слова:
модель языка, метод сглаживанияАннотация
В работе предлагается метод сглаживания n-граммной модели языка, в основе которого лежит моделирование функции математического ожидания вероятности встречаемости n-грамм. Вместо дисконтирования максимальной вероятности n-грамм предлагается увеличение мощности обучающего множества на ожидаемое число n-грамм, отсутствующих в обучающей базе текстов. Для моделирования этого числа функция математического ожидания вероятности встречаемости экстраполируется к нулевой частоте. На основе статистического анализа текстов построена модель функции математического ожидания встречаемости.Литература
F. Jelinek. Continuous speech recognition by statistical methods. // Proc. IEEE, vol. 64, pp. 532-556, Apr. 1976.
Кипяткова И.С., Карпов А.А. Разработка и исследование статистической модели русского языка // Труды СПИИРАН. Вып. 12, СПб.: Наука, 2010, С. 35-49.
Chen S.F. and Goodman J. An Empirical Study of Smoothing Techniques for Language Modeling. // Computer science group, Harvard University, Cambridge, Massachusetts, TR-8-98, August, 1998.
Ronald Rosenfeld. Two decades of statistical language modeling: where do we go from here? / School of Computer Science, Carnegie Mellon University, Pittsburgh, PA 15213, USA.
Good, I.J. 1953. The population frequencies of species and the estimation of population parameters. // Biometrika, 40 (3 and 4):237-264.
Katz, Slava M. 1987. Estimation of probabilities from sparse data for the language model component of a speech recognizer. / IEEE Transactions on Acoustics, Speech and Signal Processing, ASSP-35 (3): 400-401, March.
T.Kawabata, M.Tamoto. Back-off method for N-gram smoothing based on binomial posteriori distribution. // NTT Basic Laboratories, 3-1 Morinosato-Wakamiya, Atsugi-Shi 243-01, Japan.
Кипяткова И.С., Карпов А.А. Разработка и исследование статистической модели русского языка // Труды СПИИРАН. Вып. 12, СПб.: Наука, 2010, С. 35-49.
Chen S.F. and Goodman J. An Empirical Study of Smoothing Techniques for Language Modeling. // Computer science group, Harvard University, Cambridge, Massachusetts, TR-8-98, August, 1998.
Ronald Rosenfeld. Two decades of statistical language modeling: where do we go from here? / School of Computer Science, Carnegie Mellon University, Pittsburgh, PA 15213, USA.
Good, I.J. 1953. The population frequencies of species and the estimation of population parameters. // Biometrika, 40 (3 and 4):237-264.
Katz, Slava M. 1987. Estimation of probabilities from sparse data for the language model component of a speech recognizer. / IEEE Transactions on Acoustics, Speech and Signal Processing, ASSP-35 (3): 400-401, March.
T.Kawabata, M.Tamoto. Back-off method for N-gram smoothing based on binomial posteriori distribution. // NTT Basic Laboratories, 3-1 Morinosato-Wakamiya, Atsugi-Shi 243-01, Japan.
Опубликован
2011-12-01
Как цитировать
Зыков, А. П. (2011). Метод сглаживания вероятностей n-грамм на основе моделирования математического ожидания их встречаемости. Труды СПИИРАН, 4(19), 146-158. https://doi.org/10.15622/sp.19.8
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).