Деформирующие преобразования изображений и их применение при аугментации данных для обучения глубоких нейронных сетей
Ключевые слова:
глубокие нейронные сети, аугментация обучающих данных, деформирующие искажения изображений, эффективность глубоких нейронных сетейАннотация
Проведены исследования возможностей аугментации (искусственного размножения) обучающих данных в задаче классификации с использованием деформирующих преобразований обрабатываемых изображений. Представлены математическая модель и быстродействующий алгоритм выполнения деформирующего преобразования изображения, при использовании которых исходное изображение преобразуется с сохранением своей структурной основы и отсутствием краевых эффектов. Предложенный алгоритм используется для аугментации наборов изображений в задаче классификации, содержащих относительно небольшое количество обучающих примеров. Аугментация исходной выборки осуществляется в два этапа, включающих зеркальное отображение и деформирующее преобразование каждого исходного изображения. Для проверки эффективности подобной техники аугментации в статье проводится обучение нейронных сетей – классификаторов различного вида: сверточных сетей стандартной архитектуры (convolutional neural network, CNN) и сетей с остаточными связями (deep residual network, DRN). Особенностью реализуемого подхода при решении рассматриваемой задачи является также отказ от использования предобученных нейронных сетей с большим количеством слоев и дальнейшим переносом обучения, поскольку их применение несет за собой затраты с точки зрения используемого вычислительного ресурса. Показано, что эффективность классификации изображений при реализации предложенного метода аугментации обучающих данных на выборках малого и среднего объема повышается до статистически значимых значений используемой метрики.
Литература
2. Minaee S., Luo P., Lin Zh., Bowyer K. Going deeper into face detection: A survey // arXiv preprint. 2021. DOI: 10.48550/arXiv.2103.14983.
3. Ciresan D.C., Meier U., Gambardella L.M., Schmidhuber J. Deep, Big, Simple Neural Nets For Handwritten Digit Recognition // Neural computation. 2010. vol. 22. no. 12. pp. 3207–3220. DOI: 10.1162/NECO_a_00052.
4. Tao X., Zhang D., Ma W., Liu X., Xu D. Automatic Metallic Surface Defect Detection and Recognition with Convolutional Neural Networks // Applied Sciences. 2018. vol. 8. no. 9. pp. 1575–1590. DOI: 10.3390/app8091575.
5. Shorten C., Khoshgoftaar T.M. Survey on Image Data Augmentation for Deep Learning // Journal of Big Data. 2019. vol. 6. no. 1. pp. 1–48. DOI: 10.1186/s40537-019-0197-0.
6. Wang W., Xie E., Li X., Fan, D. P., Song, K., Liang, D., Lu T., Luo P., Shao, L. Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions // Proceedings of the IEEE/CVF international conference on computer vision. 2021. pp. 568–578. DOI: 10.1109/ICCV48922.2021.00061.
7. Качалин С.В. Повышение устойчивости обучения больших нейронных сетей дополнением малых обучающих выборок примеров-родителей, синтезированными биометрическими примерами-потомками // Труды научно-технической конференции кластера пензенских предприятий, обеспечивающих безопасность информационных технологий. 2014. Т. 9. С. 32–35.
8. Акимов А.В., Сирота А.А. Модели и алгоритмы искусственного размножения данных для обучения алгоритмов распознавания лиц методом Виолы–Джонса // Компьютерная оптика. 2016. Т. 40. № 6. С. 911–918. DOI: 10.18287/2412-6179-2016-40-6-911-918.
9. Небаба С.Г., Захарова А.А. Алгоритм построения деформируемых 3D моделей лица и обоснование его применимости в системах распознавания личности. Труды СПИИРАН. 2017. Т. 52. C. 157–179. DOI: 10.15622/sp.52.8.
10. Сирота А.А., Донских А.О., Акимов А.В., Минаков Д.А. Смешанные ядерные оценки многомерных распределений и их применение в задачах машинного обучения для классификации биологических объектов на основе спектральных измерений // Компьютерная оптика. 2019. Т. 43. № 4. С. 677–691. DOI: 10.18287/2412-6179-2019-43-4-677-691.
11. Дагаева М.В., Сулейманов М.А., Катасева Д.В., Катасёв, А.С., Кирпичников А.П. Технология построения отказоустойчивых нейросетевых моделей распознавания рукописных символов в системах биометрической аутентификации // Вестник Технологического университета. 2018. Т. 21. № 2. С. 133–138.
12. Емельянов С.О., Иванова А.А., Швец Е.А., Николаев Д.П. Методы аугментации обучающих выборок в задачах классификации изображений // Сенсорные системы. 2018. Т. 32. № 3. С. 236–245. DOI: 10.1134/S0235009218030058.
13. Рюмина Е.В., Рюмин Д.А., Маркитантов М.В., Карпов А.А. Метод генерации обучающих данных для компьютерной системы обнаружения защитных масок на лицах людей // Компьютерная оптика. 2022. Т. 46. № 4. С. 603–611. DOI: 10.18287/2412-6179-CO-1039.
14. Камалова Ю.Б., Андриянов Н.А. Распознавание микроскопических изображений пыльцевых зерен с помощью сверточной нейронной сети VGG-16 // Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника. 2022. Т. 22. № 3. С. 39–46. DOI: 10.14529/ctcr220304.
15. Ковун В.А., Каширина И.Л. Использование нейронной сети W-Net в металлографическом анализе образцов стали // Вестник ВГУ (Системный анализ и информационные технологии). 2022. № 1. С. 101–110. DOI: 10.17308/sait.2022.1/9205.
16. Simard P.Y., Steinkraus D., Platt J.C. Best practices for convolutional neural networks applied to visual document analysis // In Proceedings of the Seventh International Conference on Document Analysis and Recognition (ICDAR '03). 2003. vol. 2. pp. 1–6.
17. Buslaev A., Iglovikov V.I., Khvedchenya E., Parinov A., Druzhinin M., Kalinin A.A. Albumentations: Fast and flexible image augmentations. Information. 2020. vol. 11. no. 2. pp. 1–20. DOI: 10.3390/info11020125.
18. Hasan S.M.K., Linte C.A. U-NetPlus: A modified encoder-decoder U-Net architecture for semantic and instance segmentation of surgical instruments from laparoscopic images // 41st Annual International Conference of the Ieee Engineering in Medicine and Biology Society (EMBC). 2019. pp. 7205–7211.
19. Keysers D., Deselaers T., Gollan C., Ney H. Deformation models for image recognition // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2007. vol. 29(8). pp. 1422–1435. DOI: 10.1109/TPAMI.2007.1153.
20. Felzenswalb P., McAllester D., Ramanan D. A discriminatively trained, multiscale, deformable part model // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2008. pp. 1–8. DOI: 10.1109/CVPR.2008.4587597.
21. Wiskott L., Fellous J.-M., Kruger N., von der Malsburg C. Face Recognition by Elastic Bunch Graph Matching // Proceedings of International Conference on Image Processing. 1997. vol. 1. pp. 129–132. DOI: 10.1109/ICIP.1997.647401.
22. Li X., Li W., Ren D., Zhang H., Wang M., Zuo W. Enhanced Blind Face Restoration with Multi-Exemplar Images and Adaptive Spatial Feature Fusion // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. pp. 2706–2715. DOI: 10.1109/CVPR42600.2020.00278.
23. Deng Y., Yang J., Tong X. Deformed Implicit Field: Modeling 3D Shapes With Learned Dense Correspondence // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021. pp. 10286–10296. DOI: 10.48550/arXiv.2011.13650.
24. Venkatesh S., Ramachandra R., Raja K., Busch Ch. Face Morphing Attack Generation and Detection: A Comprehensive Survey // IEEE Transactions on Technology and Society. 2021. vol. 2. no. 3. pp. 128–145. DOI: 10.1109/TTS.2021.3066254.
25. Scherhag U., Rathgeb C., Merkle J. Busch C. Deep Face Representations for Differential Morphing Attack Detection // IEEE Transactions on Information Forensics and Security. 2020. vol. 15. pp. 3625–3639. DOI: 10.1109/TIFS.2020.2994750.
26. Ling H., Kreis K., Li D., Kim S.W., Torralba A., Fidler S. EditGAN: High-Precision Semantic Image Editing // Advances in Neural Information Processing Systems. 2021. vol. 34. pp. 16331–16345. DOI: 10.48550/arXiv.2111.03186.
27. Wang S.Y., Bau D., Zhu J.Y. Rewriting Geometric Rules of a GAN // ACM Transactions on Graphics (TOG). 2022. vol. 41. no. 4. pp. 1–16. DOI: 10.48550/arXiv.2207.14288.
28. Акимов А.В., Дрюченко М.А., Сирота А.А. Модели и алгоритмы внесения деформирующих искажений на изображениях с использованием радиально-базисных функций // Вестник ВГУ (Системный анализ и информационные технологии). 2014. № 1. С. 130–137.
29. Захарова А.А., Небаба С.Г., Завьялов Д.А. Алгоритмическое и программное обеспечение для повышения эффективности обработки многомерных гетерогенных данных // Программирование. 2019. № 4. С. 64–70. DOI: 10.1134/S0132347419040101.
30. Buckley M.J. Fast computation of a discretized thin-plate smoothing spline for image data // Biometrika. 1994. vol. 81. no. 2. pp. 247–258. DOI: 10.2307/2336955.
31. Sastry S.P., Zala V., Kirby R.M. Thin-plate-spline curvilinear meshing on a calculus-of-variations framework // Procedia Engineering. 2015. vol. 124. pp. 135–147. DOI: 10.1016/j.proeng.2015.10.128.
32. Elastic Transform for Data Augmentation. URL: https://www.kaggle.com/code/bguberfain/elastic-transform-for-data-augmentation (accessed: 30.10.2023).
Опубликован
Как цитировать
Раздел
Copyright (c) Алексей Викторович Акимов, Александр Анатольевич Сирота, Ростислав Русланович Отырба
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).