Подсистема массового распознавания изображений архивных документов
Ключевые слова:
автоматическое распознавание изображений, электронный архив, оцифровка архивных документовАннотация
В настоящей статье вначале описываются особенности и проблематика массового распознавания архивных документов. Рассматриваются ключевые проблемы проектирования такого рода систем, приводятся примеры и предлагаются различные варианты их решения. Далее приводится концептуальная схема построения электронного архива и отдельная схема организации входящей в его состав подсистемы автоматического распознавания. Описываются основные компоненты, функции и бизнес- процессы, протекающие в системе.Литература
Anderson N. IMPACT Best Practice Guide: Optical Character Recognition – Part 1. 2010. URL: http://www.impact-project.eu/uploads/media/IMPACT-ocr-bpg-pilot-s1.pdf (дата обращения: 06.06.2012)
Tanner S. Deciding Whether Optical Character Recognition is Feasible. 2004. URL: http://www.odl.ox.ac.uk/papers/OCRFeasibility_final.pdf (дата обращения: 06.06.2012)
ISO 14721:2003. Space data and information transfer systems -- Open archival information system -- Reference model
Anderson N. IMPACT Briefing Paper: Optical Character Recognition. 2010. URL: http://www.impact-project.eu/uploads/media/IMPACT-ocr-bp-pilot-1b.pdf (дата обращения: 06.06.2012)
Kukich K. Techniques for automatically Correcting Words in Text // ACM computing survey Computational Linguistic. 1992. В. 24. №4. С. 377–439
Mailburg M. Comparative Evaluation of Techniques for Word Recognition Improvement by Incorporation of Syntactic Information // 4th International Conference Document Analysis and Recognition (ICDAR ‘97). Август 1997. С. 784
Beitzel S., Jensen E., Grossman D. A Survey of Retrieval Strategies for OCR Text Collections // Proc. of 2003 Symposium on Document Image Understanding Technology. Апрель 2003
Sholomov D.L. Interpreting the Indistinctly Recognized Textual Constructions // Pattern Recognition and Image Analysis. 2003. В. 13. №2. С. 353–355
Bouchaffra D., Govindaraju V., Srihari S. Postprocessing of Recognized Strings Using Nonstationary Markovian Models // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1997. В. 21. №10. С. 990–999
Шоломов Д.Л., Постников В.В., Марченко А.А., Усков А.В. Пост-обработка результатов OCR распознавания, использующая частично определенный синтаксис // Труды ИСА РАН. 2005. Т. 16. С. 146–163
Tanner S. Deciding Whether Optical Character Recognition is Feasible. 2004. URL: http://www.odl.ox.ac.uk/papers/OCRFeasibility_final.pdf (дата обращения: 06.06.2012)
ISO 14721:2003. Space data and information transfer systems -- Open archival information system -- Reference model
Anderson N. IMPACT Briefing Paper: Optical Character Recognition. 2010. URL: http://www.impact-project.eu/uploads/media/IMPACT-ocr-bp-pilot-1b.pdf (дата обращения: 06.06.2012)
Kukich K. Techniques for automatically Correcting Words in Text // ACM computing survey Computational Linguistic. 1992. В. 24. №4. С. 377–439
Mailburg M. Comparative Evaluation of Techniques for Word Recognition Improvement by Incorporation of Syntactic Information // 4th International Conference Document Analysis and Recognition (ICDAR ‘97). Август 1997. С. 784
Beitzel S., Jensen E., Grossman D. A Survey of Retrieval Strategies for OCR Text Collections // Proc. of 2003 Symposium on Document Image Understanding Technology. Апрель 2003
Sholomov D.L. Interpreting the Indistinctly Recognized Textual Constructions // Pattern Recognition and Image Analysis. 2003. В. 13. №2. С. 353–355
Bouchaffra D., Govindaraju V., Srihari S. Postprocessing of Recognized Strings Using Nonstationary Markovian Models // IEEE Transactions on Pattern Analysis and Machine Intelligence. 1997. В. 21. №10. С. 990–999
Шоломов Д.Л., Постников В.В., Марченко А.А., Усков А.В. Пост-обработка результатов OCR распознавания, использующая частично определенный синтаксис // Труды ИСА РАН. 2005. Т. 16. С. 146–163
Опубликован
2012-09-01
Как цитировать
Смирнов, С. В. (2012). Подсистема массового распознавания изображений архивных документов. Труды СПИИРАН, 3(22), 234-248. https://doi.org/10.15622/sp.22.13
Раздел
Статьи
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями:
Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале.
Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале.
Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).