Корректировка ошибок оптического распознавания на основе рейтинго-ранговой модели текста
Ключевые слова:
оптическое распознавание, OCR, корректировка ошибок распознавания, обработка текста, алгоритм, функция хешированияАннотация
Результаты массового оптического распознавания архивных документов необходимо подвергать корректировке с целью сокращения количества ошибок. В работе описывается алгоритм корректировки, учитывающий особенности русского языка и позволяющий обрабатывать корпуса текстов больших объемов в полностью автоматическом режиме. Процесс корректировки разделяется на этапы анализа всего корпуса текстов, подготовки структур данных, отбора слов-кандидатов и их финального ранжирование. Использование рейтинго-ранговой модели текста для генерации корректировок позволяет обрабатывать тексты, содержащие узкоспециализированную терминологию, различных предметных областей.Литература
1. Смирнов С.В. Подсистема массового распознавания изображений архивных документов // Труды СПИИРАН. 2012. Выпуск 3(22). С. 234–248.
2. Kai N. Unsupervised Post-Correction of OCR Errors // Hannover: Leibniz University. 2010.
3. Kukich K. Techniques for automatically Correcting Words in Text // ACM computing survey Computational Linguistic. 1992. vol. 24. no. 4. pp. 377–439.
4. Mailburg M. Comparative Evaluation of Techniques for Word Recognition Improvement by Incorporation of Syntactic Information // 4th International Conference Document Analysis and Recognition (ICDAR ‘97). 1997. p. 784.
5. Beitzel S., Jensen E., Grossman D. A Survey of Retrieval Strategies for OCR Text Collections // Proc. of 2003 Symposium on Document Image Understanding Technology. 2003.
6. Chen D., Mao J., Mohiuddin K. An Efficient Algorithm for Matching a Lexicon with a Segmentation Graph // Fifth International Conference on Document Analysis and Recognition. 1999. pp. 543-546.
7. Mays E., Damerau F.J., Mercer R.L. Context Based Spelling Correction // Inf. Process. Manage. 1991. vol. 27. no. 5. pp. 517–522.
8. Fossati D., Barbara Di Eugenio. A Mixed Trigrams Approach for Context Sensitive Spell Checking // Proceedings of the 8th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing ’07). 2007. pp. 623–633.
9. Шоломов Д.Л., Постников В.В., Марченко А.А., Усков А.В. Пост-обработка результатов OCR распознавания, использующая частично определенный синтаксис // Труды ИСА РАН. 2005. Т.16. С. 146 163.
10. Смирнов С.В. Методы автоматической постобработки результатов распознавания в задачах оцифровки архивных документов // Информационно-измерительные и управляющие системы. 2013. №9. С. 22–32.
11. Philips L. The Double Metaphone Search Algorithm // C/C++ Users J. 2000. vol. 18. no. 6. pp. 38–43.
12. Pollock J., Zamora A. Automatic Spelling Correction in Scientific and Scholarly Text // Commun. ACM. 1984. vol. 27. no. 4. pp. 358–368.
13. Левенштейн В. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академий Наук СССР. 1965. Т. 163. № 4. С. 845-848.
14. Reynaert M. Text Induced Spelling Correction // Proceedings of the 20th international conference on Computational Linguistics (COLING ’04). 2004. pp. 834.
15. Автоматическая обработка текста. URL: www.aot.ru (дата обращения 10.05.2014).
16. Сокирко А.В. Морфологические модули на сайте www.aot.ru // Материалы конференции «Диалог-2004». 2004.
17. Reynaert M. Corpus-Induced Corpus Clean-up // Fifth International Conference on Language Resources and Evaluation (LREC ‘2006). 2006.
18. Damerau F.J. A technique for computer detection and correction of spelling errors // Commun. ACM. 1964. vol. 7. no. 3. pp. 171–176.
19. Смирнов С.В. Критерии оценки качества результатов оптического распознавания // Сборник материалов XVI Международной научно-практической конференции «Перспективы развития информационных технологий». Новосибирск. 2013. С. 33–38.
2. Kai N. Unsupervised Post-Correction of OCR Errors // Hannover: Leibniz University. 2010.
3. Kukich K. Techniques for automatically Correcting Words in Text // ACM computing survey Computational Linguistic. 1992. vol. 24. no. 4. pp. 377–439.
4. Mailburg M. Comparative Evaluation of Techniques for Word Recognition Improvement by Incorporation of Syntactic Information // 4th International Conference Document Analysis and Recognition (ICDAR ‘97). 1997. p. 784.
5. Beitzel S., Jensen E., Grossman D. A Survey of Retrieval Strategies for OCR Text Collections // Proc. of 2003 Symposium on Document Image Understanding Technology. 2003.
6. Chen D., Mao J., Mohiuddin K. An Efficient Algorithm for Matching a Lexicon with a Segmentation Graph // Fifth International Conference on Document Analysis and Recognition. 1999. pp. 543-546.
7. Mays E., Damerau F.J., Mercer R.L. Context Based Spelling Correction // Inf. Process. Manage. 1991. vol. 27. no. 5. pp. 517–522.
8. Fossati D., Barbara Di Eugenio. A Mixed Trigrams Approach for Context Sensitive Spell Checking // Proceedings of the 8th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing ’07). 2007. pp. 623–633.
9. Шоломов Д.Л., Постников В.В., Марченко А.А., Усков А.В. Пост-обработка результатов OCR распознавания, использующая частично определенный синтаксис // Труды ИСА РАН. 2005. Т.16. С. 146 163.
10. Смирнов С.В. Методы автоматической постобработки результатов распознавания в задачах оцифровки архивных документов // Информационно-измерительные и управляющие системы. 2013. №9. С. 22–32.
11. Philips L. The Double Metaphone Search Algorithm // C/C++ Users J. 2000. vol. 18. no. 6. pp. 38–43.
12. Pollock J., Zamora A. Automatic Spelling Correction in Scientific and Scholarly Text // Commun. ACM. 1984. vol. 27. no. 4. pp. 358–368.
13. Левенштейн В. Двоичные коды с исправлением выпадений, вставок и замещений символов // Доклады Академий Наук СССР. 1965. Т. 163. № 4. С. 845-848.
14. Reynaert M. Text Induced Spelling Correction // Proceedings of the 20th international conference on Computational Linguistics (COLING ’04). 2004. pp. 834.
15. Автоматическая обработка текста. URL: www.aot.ru (дата обращения 10.05.2014).
16. Сокирко А.В. Морфологические модули на сайте www.aot.ru // Материалы конференции «Диалог-2004». 2004.
17. Reynaert M. Corpus-Induced Corpus Clean-up // Fifth International Conference on Language Resources and Evaluation (LREC ‘2006). 2006.
18. Damerau F.J. A technique for computer detection and correction of spelling errors // Commun. ACM. 1964. vol. 7. no. 3. pp. 171–176.
19. Смирнов С.В. Критерии оценки качества результатов оптического распознавания // Сборник материалов XVI Международной научно-практической конференции «Перспективы развития информационных технологий». Новосибирск. 2013. С. 33–38.
Опубликован
2014-11-11
Как цитировать
Смирнов, С. В. (2014). Корректировка ошибок оптического распознавания на основе рейтинго-ранговой модели текста. Труды СПИИРАН, 4(35), 64-82. https://doi.org/10.15622/sp.35.5
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).