Сегментация семантического текста по искусственному изображению полнотекстовых документов
Ключевые слова:
генерация искусственных изображений, сегментация семанти- ческого текста, вариационный автоэнкодер, OCR, оптическое распознавание символов, распознавание текста, генерация искусственно состаренного текстаАннотация
Предлагается разделенный на несколько модулей алгоритм для создания изображений полнотекстовых документов. Эти изображения можно использовать для обучения, тестирования и оценки моделей оптического распознавания символов (ОПР).
Алгоритм является модульным, отдельные части могут быть изменены и настроены для создания желаемых изображений. Описывается метод получения фоновых изображений бумаги из уже оцифрованных документов. Для этого используется новый, основанный на вариационном автоэнкодере подход к обучению генеративной модели. Эти фоны позволяют сразу же сгенерировать такие же фоновые изображения, как те, на которых производилось обучение.
Для получения правдоподобного эффекта старения в модуле печати текста используются большие текстовые блоки, типы шрифтов и вариативность изменения яркости символов.
Поддерживаются несколько типов макетов страницы. Система генерирует подробную структурированную аннотацию искусственного изображения. Для сравнения реальных изображений с искусственно созданными используется программа Тессеракт ОПР. Точность распознавания приблизительно схожа, что указывает на правильность сгенерированных искусственных изображений. Более того, допущенные системой ОПР ошибки в обоих случаях очень похожи. На основе сгенерированных изображений была обучена архитектура сверточная кодер-декодер нейронная сеть полностью для семантической сегментации отдельных символов. Благодаря этой архитектуре достигнута точность распознавания 99,28% в тестовом наборе синтетических документов.
Литература
2. Badrinarayanan V., Kendall A., Cipolla R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017. vol. 39(12). pp. 2481–2495.
3. Bengio Y. et al. Learning deep architectures for AI // Foundations and trends® in Machine Learning. 2009. vol. 2(1). pp. 1–127.
4. Breuel T. Recent progress on the OCRopus OCR system // Proceedings of the Inter-national Workshop on Multilingual OCR. 2009. pp. 2.
5. Bures L., Neduchal P., Hlav ˇ ac M., Hr ́ uz M. ́ Generation of synthetic images of full-text documents // International Conference on Speech and Computer. 2018. pp. 68–75.
6. Chen L.C., Papandreou G., Schroff F., Adam H. Rethinking atrous convolution for semantic image segmentation // arXiv preprint arXiv:1706.05587. 2017.
7. Chernyshova Y.S., Gayer A.V., Sheshkus A.V. Generation method of synthetic training data for mobile OCR system // Tenth International Conference on Machine Vision (ICMV 2017). 2018. vol. 10696. pp. 106962G.
8. Dumas T., Roumy A., Guillemot C. Autoencoder based image compression: can the learning be quantization independent? // 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2018. pp. 1188–1192.
9. Gruber I., Hlavac M., Hr ́ uz M., ́ Zelezn ˇ y M. ́ Semantic segmentation of historical documents via fully-convolutional neural network // International Conference on Speech and Computer. 2019. pp. 142–149.
10. Gupta A., Vedaldi A., Zisserman A. Synthetic data for text localization in natural images // Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. 2016. pp. 2315–2324.
11. Hajic J., Dorfer M., Widmer G., Pecina P. Towards full-pipeline handwritten OMR with musical symbol detection by u-nets // ISMIR. 2018. pp. 225–232.
12. Huang H., He R., Sun Z., Tan T. Introvae: Introspective variational autoencoders for photographic image synthesis // Advances in Neural Information Processing Systems. 2018. pp. 52–63.
13. Huang W., Qiao Y., Tang X. Robust scene text detection with convolution neural network induced mser trees // European Conference on Computer Vision. 2014. pp. 497–511.
14. Jaderberg M., Vedaldi A., Zisserman A. Deep features for text spotting // European Conference on Computer Vision. 2014. pp. 512–528.
15. Jaderberg M., Simonyan K., Vedaldi A., Zisserman A. Reading text in the wild with convolutional neural networks // International Journal of Computer Vision. 2016. vol. 116(1). pp. 1–20.
16. Kingma D.P., Welling M. Auto-encoding variational bayes // International Conference on Learning Representations. 2014. 21 p.
17. Lin G. et al. Refinenet: Multi-path refinement networks for dense prediction // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2019.
18. Noh H., Hong S., Han B. Learning deconvolution network for semantic segmentation // Proceedings of the IEEE International conference on computer vision. 2015. pp. 1520–1528.
19. Otsu N. A threshold selection method from gray-level histograms // IEEE transactions on systems, man, and cybernetics. 1979. vol. 9(1). pp. 62–66.
20. Ronneberger O., Fischer P., Brox T. U-net: Convolutional networks for biomedical image segmentation // International Conference on Medical image computing and computer-assisted intervention. 2015. pp. 234–241.
21. Smith R. An overview of the tesseract OCR engine // Ninth International Conference on Document Analysis and Recognition (ICDAR 2007). 2007. vol. 2. pp. 629–633.
22. Tokui S., Oono K., Hido S., Clayton J. Chainer: a next-generation open source framework for deep learning // Proceedings of Workshop on Machine Learning Systems (LearningSys) in The Twenty-ninth Annual Conference on Neural Information Processing Systems (NIPS). 2015. vol. 5. pp. 1–6.
23. Wen S. et al. Variational autoencoder based image compression with pyramidal features and context entropy model // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2019. pp. 0–0.
24. Zhao H. et al. Pyramid scene parsing network // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. pp. 2881–2890.
25. Zhou X. et al. EAST: An efficient and accurate scene text detector // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. pp. 5551–5560.
Опубликован
Как цитировать
Раздел
Copyright (c) 2019 Лукаш Буреш, Иван Грубер, Петр Недухал, Мирослав Главач, Марек Груз
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).