Интеграция легковесных модулей канального внимания в глубинные сепарабельные сверточные архитектуры для повышения точности локализации объектов во встраиваемых системах

Александр Владимирович Сацюк; Сергей Александрович Радковский; Алексей Игоревич Шеховцов; Светлана Дмитриевна Сонина; Александр Александрович Воробьев

doi:10.15622/ia.25.3.2

Александр Владимирович Сацюк ФГБОУ ВО «Донецкий институт железнодорожного транспорта» (ФГБОУ ВО ДОНИЖТ) Orcid
Сергей Александрович Радковский ФГБОУ ВО «Донецкий институт железнодорожного транспорта» (ФГБОУ ВО ДОНИЖТ) Orcid
Алексей Игоревич Шеховцов ФГБОУ ВО «Донецкий институт железнодорожного транспорта» (ФГБОУ ВО ДОНИЖТ) Orcid
Светлана Дмитриевна Сонина ФГБОУ ВО «Донецкий институт железнодорожного транспорта» (ФГБОУ ВО ДОНИЖТ) Orcid
Александр Александрович Воробьев ФГБОУ ВО «Донецкий институт железнодорожного транспорта» (ФГБОУ ВО ДОНИЖТ) Orcid

DOI:

https://doi.org/10.15622/ia.25.3.2

Ключевые слова:

блок внимания, сверточная нейронная сеть, CNN, оптимизация нейронной сети, архитектура нейронной сети, Raspberry Pi 5, YOLO, разделяемая по глубине свертка

Аннотация

В статье рассматривается задача проектирования высокоэффективных сверточных нейронных сетей для встраиваемых систем компьютерного зрения, функционирующих в режиме реального времени. Основное внимание уделяется дилемме между вычислительной эффективностью и качеством локализации объектов. Отмечается, что агрессивная оптимизация с помощью глубинных сепарабельных сверток, примененная к легковесной однопроходной архитектуре, хотя и обеспечивает высокую скорость, часто приводит к потере способности сети точно определять пространственные границы целевых объектов. Для преодоления данного компромисса предложена новая архитектурная стратегия – интеграция легковесных, динамически настраиваемых модулей канального внимания непосредственно в структуру сепарабельных сверточных блоков. Созданный гибридный блок выполняет селективное взвешивание каналов признакового пространства, что позволяет сети усиливать детализированные признаки, критичные для границ объектов. Экспериментальная валидация проведена на целевой платформе Raspberry Pi 5 с использованием квантованных до формата INT8 моделей. Модифицированная архитектура продемонстрировала незначительный рост сложности (до 4.4 GFLOPs и 2.05 млн параметров) по сравнению с базовой DSC-версией. Ключевым результатом стало существенное улучшение метрики локализации mAP_0.75– прирост на 8.3 п.п. до уровня 66.5%, что превосходит показатели стандартной, неоптимизированной модели YOLOv8n (61.1% на RPi 5). При этом частота кадров (27.8 FPS) сохранилась значительно выше порогового требования реального времени (20 FPS). Таким образом, исследование доказывает, что целенаправленное внедрение компактных механизмов внимания в ультралегковесные архитектуры позволяет достичь качественного скачка в точности локализации, превосходящего исходные, более ресурсоемкие аналоги, без нарушения жестких ограничений по производительности. Предложенный подход открывает путь для разработки более надежных и точных систем детекции для автономных устройств, критичных к ресурсам.

Литература

1. Сацюк А.В., Володарец Н.В. Модификация модели YOLO для гибридной системы детекции и трекинга в БПЛА с автоматическим наведением // Информационно-управляющие системы. 2025. №4. С. 36–44. DOI: 10.31799/1684-8853-2025-4-36-44.
2. Минин В.С., Кириллова Е.А., Кириллова Е.А., Филимонова Е.В. Выявление аномалий в экономических показателях на основе нейронной сети с глубинно-разделимыми свертками // Прикладная информатика. 2025. Т. 20. №6(120). С. 30–51. DOI: 10.37791/2687-0649-2025-20-6-30-51.
3. Chollet F. Xception: Deep Learning with Depthwise Separable Convolutions // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. pp. 1800–1807. DOI: 10.1109/CVPR.2017.195.
4. Махмудов М.Д., Фазилова Д.Ш. Распознавание жестов рук с помощью MobileNetV2 // Universum: Технические науки. 2021. №11(92). С. 60–62. DOI: 10.32743/UniTech.2021.92.11.12582.
5. Воронков А.Д., Диане С.А.К. Планирование захвата неизвестных объектов многопалым захватным устройством на основе нейросетевого механизма внимания // Нейрокомпьютеры: разработка, применение. 2024. Т. 26. №5. С. 80–95. DOI: 10.18127/j19998554-202405-08.
6. Клековкин В.А., Марков Н.Г., Небаба С.Г. Модели сверточных нейронных сетей YOLO с механизмом внимания для систем компьютерного зрения реального времени // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2025. №72. С. 39–50. DOI: 10.17223/19988605/72/4.
7. Tan M., Le Q.V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks // Proceedings of the 36th International Conference on Machine Learning (PMLR). 2019. pp. 6105–6114.
8. Сацюк А.В. Мониторинг инфраструктуры на основе искусственного интеллекта // Автоматика, связь, информатика. 2025. №9. С. 32–34. DOI: 10.62994/AT.2025.9.9.005.
9. Сацюк А.В., Воевода Е.Г. Система автоматического контроля безопасности на железнодорожных переездах // Сборник научных трудов Донецкого института железнодорожного транспорта. 2024. №2(73). С. 39–45.
10. Павленко Д.А., Ковалев В.А., Снежко Э.В., Левчук В.А., Печковский Е.И. Распознавание подстилающей поверхности Земли с помощью сверточной нейронной сети на одноплатном микрокомпьютере // Информатика. 2020. Т. 17. №3. С. 36–43. DOI: 10.37661/1816-0301-2020-17-3-36-43.
11. Аксенов Д.С., Жиляев В.А., Маркин Н.И., Титов И.А. Система распознавания объектов на базе Raspberry Pi 4 и Intel Neural Compute Stick 2 // Информационные системы и технологии. 2023. №4(138). С. 10–16.
12. Jacob B., et al. Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. pp. 2704–2713. DOI: 10.1109/CVPR.2018.00286.
13. Yaseen M. What is YOLOv9: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector //arXiv preprint arXiv:2409.07813. 2024. pp. 1–10.
14. Desai M., Mewada H., Pires I.M., Roy S. Evaluating the Performance of the YOLO Object Detection Framework on COCO Dataset and Real-World Scenarios // Procedia Computer Science. 2024. vol. 251. pp. 157–163. DOI: 10.1016/j.procs.2024.11.096.
15. Лимонова Е.Е., Шешкус А.В., Николаев Д.П., Иванова А.А., Ильин Д.А., Арлазаров В.Л. Оптимизация быстродействия первых слоев глубоких сверточных нейронных сетей // Вестник Российского фонда фундаментальных исследований. 2016. №4(92). С. 84–96. DOI: 10.22204/2410-4639-2016-092-04-84-96.
16. Zhang X. et al. ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. pp. 6848–6856. DOI: 10.1109/CVPR.2018.00716.
17. Sandler M., Howard A., Zhu M., Zhmoginov A., Chen L.-C. MobileNetV2: Inverted Residuals and Linear Bottlenecks // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. pp. 4510–4520. DOI: 10.1109/CVPR.2018.00474.4.
18. Lin T.-Y., et al. Feature Pyramid Networks for Object Detection // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017. pp. 936–944. DOI: 10.1109/CVPR.2017.106.
19. Сацюк А.В., Белый Р.В., Ищенко А.Е. Оценка эффективности алгоритмов YOLO для обнаружения объектов в реальном времени во встраиваемых системах беспилотных транспортных средств // Сборник научных трудов Донецкого института железнодорожного транспорта. 2024. №4(75). С. 73–82.
20. Wang A., et al. YOLOv10: Real-Time End-to-End Object Detection // Advances in Neural Information Processing Systems. 2024. vol. 37. pp. 1–28. DOI: 10.52202/079017-3429.
21. Сацюк А.В. Оптимизация архитектуры YOLOv8 для задач захвата объекта БПЛА: анализ компромисса между точностью, скоростью и вычислительными ресурсами // Вестник Ростовского государственного университета путей сообщения. 2025. №2(98). С. 35–42. DOI: 10.46973/0201-727X_2025_2_35.
22. Cherepanov N.I., Stepina N.O., Nikiforov I.V. Improving image analysis and processing performance on the RISC-V platform with Lichee Pi 4A // Proceedings of the Institute for System Programming of the RAS. 2025. vol. 37. no. 5. pp. 157–172. DOI: 10.15514/ISPRAS-2025-37(5)-12.
23. Chen C., et al. Lightweight Convolutional Transformers Enhanced Meta-Learning for Compound Fault Diagnosis of Industrial Robot // IEEE Transactions on Instrumentation and Measurement. 2023. vol. 72. pp. 1–12. DOI: 10.1109/TIM.2023.3277956.
24. Грибанов Д.Н., Мухин А.В., Килбас И.А., Парингер Р.А. Семантическая сегментация гиперспектральных изображений с использованием сверточных нейронных сетей и механизма внимания // Компьютерная оптика. 2024. Т. 48. №6. С. 894–902. DOI: 10.18287/2412-6179-CO-1371.
25. Wang Q., et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. pp. 11531–11539. DOI: 10.1109/CVPR42600.2020.01155.
26. Liu S., et al. Path Aggregation Network for Instance Segmentation // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. pp. 8759–8768. DOI: 10.1109/CVPR.2018.00913.
27. Kisantal M., et al. Augmentation for small object detection // arXiv preprint arXiv:1902.07296. 2019.
28. Сацюк А.В. Проектирование адаптивной архитектуры сверточной нейронной сети с использованием глубинных сепарабельных сверток для работы в реальном времени на встраиваемых устройствах // Информационно-управляющие системы. 2026. №1(138). DOI: 10.31799/1684-8853-2026-1. (В печати).
29. Reis D., et al. Real-Time Flying Object Detection with YOLOv8 // arXiv preprint arXiv:2305.09972. 2023.
30. Wang G. et al. Multi-View Adaptive Fusion Network for 3D Object Detection // arXiv preprint arXiv:2011.00652. 2020.
31. Khan J. Comparative Analysis of Deep Learning Models for Perception in Autonomous Vehicles // arXiv preprint arXiv:2512.21673. 2025.

Просмотры	166
Скачивания	107

Искусственный интеллект, инженерия данных и знаний

DOI:

Ключевые слова:

Аннотация

Литература

Опубликован

Статистика

Как цитировать

Выпуск

Раздел

Импакт-фактор

Разделы

Мы в сети

Обратная связь