В статье рассмотрены особенности применения методов частотного упорядочивания и аппроксимации для решения задачи идентификации знаков текста. Определены условия реализации метода Якобсена для получения наименьшей погрешности идентификации. Предложен метод аппроксимации одномерных и двумерных распределений частот знаковых биграмм текста и буквенных биграмм эталона языка текста. Приведены экспериментальные данные о погрешностях метода Якобсена и предложенного метода аппроксимации для русскоязычных текстов.
Погрешность предложенного метода меньше, чем у метода Якобсена. Метод может быть использован для идентификации знаков текста любого языка, для которого существует эталонное распределение частот буквенных биграмм.
В статье рассмотрена задача идентификации символов текстов на естественном языке по числовым характеристикам этих текстов. На основе правил языка и частот биграмм предложено решение данной задачи для русских текстов. Решение представляет собой систему идентифицирующих функций для каждого символа алфавита и детерминированную последовательность их применения. Указаны ограничения для полученного решения, область его эффективного применения и возможности расширения.
1 - 2 из 2 результатов