Исследование алгоритмов обучения с подкреплением для снижения сетевой задержки в граничных вычислениях
Ключевые слова:
обучение с подкреплением, граничные вычисления с множественным доступом (Multi-Access Edge Computing), оптимизация политики по приближению (Proximal Policy Optimization), Soft Actor-Critic, алгоритм TD3 (Twin Delayed Deep Deterministic Policy Gradient), LWMECPS, Weights & Biases (WandB)Аннотация
Современные исследования алгоритмов принятия решений в системах multi-access edge computing (MEC) для задач распределения ресурсов зачастую основываются на упрощенных абстракциях сетевой топологии, что ограничивает применимость полученных результатов в реальных условиях эксплуатации мобильных сетей. Целью данной работы является разработка реалистичной модели сети сотовой связи с использованием методов стохастической геометрии и комплексная оценка эффективности современных алгоритмов обучения с подкреплением в задачах минимизации сетевых задержек в граничных вычислениях. Метод. Для создания математически обоснованной модели сетевой среды использовались методы стохастической геометрии в сочетании с реальными статистическими данными распределения пользователей сотовых сетей. Применение стохастической геометрии обеспечило корректное моделирование пространственного размещения базовых станций и расчет межузловых расстояний, критически важных для определения сетевых задержек. Экспериментальная оценка проводилась на базе доработанной платформы LWMECPS с расширенным Gymnasium API, поддерживающим алгоритмы PPO, TD3 и SAC. Основные результаты. Разработана модель сети связи, учитывающая реалистичное пространственное распределение сетевых элементов и временную динамику пользовательской нагрузки. На основе данной модели создано виртуализированное тестовое окружение в LWMECPS, позволяющее проводить воспроизводимые эксперименты с контролируемыми параметрами. Результаты экспериментов показали различия в характеристиках производительности различных алгоритмов: PPO обеспечил стабильное сокращение задержки до 20% со стабильной конвергенцией; SAC продемонстрировал наибольшее абсолютное улучшение (сокращение задержки на 38%), но проявил нестабильность при инициализации; TD3 показал умеренную эффективность (улучшение до 11%), но высокую чувствительность к настройке гиперпараметров. Обсуждение. Проведенный сравнительный анализ алгоритмов машинного обучения с подкреплением выявил ключевые особенности их применения в MEC-системах. Установлено, что дискретный характер задач размещения сервисов делает алгоритм PPO наиболее подходящим для практического внедрения в системы принятия решений благодаря его стабильности сходимости и естественной поддержке дискретных пространств действий. Полученные результаты предоставляют научно обоснованные рекомендации для разработчиков MEC-платформ по выбору оптимальных алгоритмических решений.
Литература
2. Yi Y., Zhang G., Jiang H. Mobile Edge Computing Networks: Online Low-Latency and Fresh Service Provisioning. IEEE Transactions on Communications. 2025.
3. Wang K., Akhtar S.F., Al-Zahrani F.A. An Efficient Algorithm for Resource Allocation in Mobile Edge Computing Based on Convex Optimization and Karush–Kuhn–Tucker Method. Complexity. 2023. vol. 2023(1). pp. 1–15. DOI: 10.1155/2023/9604454.
4. Qin Y., Chen J., Jin L., Yao R., Gong Z. Task offloading optimization in mobile edge computing based on a deep reinforcement learning algorithm using density clustering and ensemble learning. Scientific Reports. 2025. vol. 15. no. 1. DOI: 10.1038/s41598-024-84038-3.
5. Rodríguez-Liria A.F., Cárdenas R., Arroba P., Moya J.M., Risco-Martín J.L., Wainer G. Decision Support Framework for Automating the Optimization of Edge Computing Federations. Proceedings of 2023 Annual Modeling and Simulation Conference (ANNSIM). 2023. pp. 49–60.
6. Liu J., Ren J., Zhang Y., Peng X., Zhang Y., Yang Y. Efficient Dependent Task Offloading for Multiple Applications in MEC-Cloud System. IEEE Transactions on Mobile Computing. 2021. vol. 22. no. 4. pp. 2147–2162. DOI: 10.1109/TMC.2021.3119200.
7. Bogatyrev V.A., Bogatyrev S.V., Bogatyrev A.V. Control of multipath transmissions in the nodes of switching segments of reserved paths. Proceedings of International Conference on Information, Control, and Communication Technologies (ICCT). 2022. pp. 1–5.
8. Wang X., Ji Y., Zhang J., Bai L., Zhang M. Low-Latency Oriented Network Planning for MEC-Enabled WDM-PON Based Fiber-Wireless Access Networks. IEEE Access. 2019. vol. 7. pp. 183383–183395. DOI: 10.1109/ACCESS.2019.2926795.
9. Ko S.-W., Han K., Huang K. Wireless Networks for Mobile Edge Computing: Spatial Modeling and Latency Analysis. IEEE Transactions on Wireless Communications. 2018. vol. 17. no. 8. pp. 5225–5240. DOI: 10.1109/TWC.2018.2840120.
10. Elghitani F. Dynamic UAV routing for multi-access edge computing. IEEE Transactions on Vehicular Technology. 2024. vol. 73. no. 6. pp. 8878–8888. DOI: 10.1109/TVT.2024.3360253.
11. Dankolo N.M., Radzi N.H.M., Mustaffa N.H., Arshad N.I., Nasser M., Gabi D., Yusuf M.N. Optimizing resource allocation for IoT applications in the edge cloud continuum using hybrid metaheuristic algorithms. Scientific Reports. 2024. vol. 15. no. 1. DOI: 10.1038/s41598-025-97648-2.
12. Ismail A.A., Khalifa N.E., El-Khoribi R.A. A survey on resource scheduling approaches in multi-access edge computing environment: A deep reinforcement learning study. Cluster Computing. 2025. vol. 28. no. 3. DOI: 10.1007/s10586-024-04893-7.
13. Filianin I., Kapitonov A., Timoshchuk-Bondar A. Gymnasium Library Interface for Multi Access Edge Computing. Proceedings of 2024 6th International Conference on Control Systems, Mathematical Modeling, Automation and Energy Efficiency (SUMMA). 2024. pp. 162–166. DOI: 10.1109/SUMMA64428.2024.10803891.
14. Sun C., Wu X., Li X., Fan Q., Wen J., Leung V.C.M. Cooperative Computation Offloading for Multi-Access Edge Computing in 6G Mobile Networks via Soft Actor Critic. Proceedings of IEEE Transactions on Network Science and Engineering. 2021. vol. 11. no. 6. pp. 5601–5614. DOI: 10.1109/TNSE.2021.3076795.
15. Saad M.M., Jamshed M.A., Adedamola A.I., Nauman A., Kim D. Twin Delayed DDPG (TD3)-Based Edge Server Selection for 5G-Enabled Industrial and C-ITS Applications. IEEE Open Journal of the Communications Society. 2025. vol. 6. pp. 3332–3343. DOI: 10.1109/OJCOMS.2025.3545566.
16. An L., Wang Z., Yue J., Ma X. Joint Task Offloading and Resource Allocation via Proximal Policy Optimization for Mobile Edge Computing Network. Proceedings of International Conference on Networking and Network Applications (NaNA). 2021. pp. 466–471. DOI: 10.1109/NaNA53684.2021.00087.
17. Zhu L., Tan L., Li B., Tian H. An optimization scheme for vehicular edge computing based on Lyapunov function and deep reinforcement learning. IET Communications. 2024. vol. 18. no. 15. pp. 908–924. DOI: 10.1049/cmu2.12800.
18. Facchini C., Holland O., Granelli F., da Fonseca N.L.S., Aghvami H. Dynamic green self-configuration of 3G base stations using fuzzy cognitive maps. Computer Networks. 2013. vol. 57. no. 7. pp. 1597–1610. DOI: 10.1016/j.comnet.2013.02.011.
19. Filianin I. Lwmecps-gym. GitHub repository. Available at: https://github.com/adeptvin1/lwmecps-gym (accessed 01.08.2025).
20. Filianin I. Lwmecps-testapp. GitHub repository. Available at: https://github.com/adeptvin1/lwmecps-testapp (accessed 03.08.2025).
21. Nieto G., de la Iglesia I., Lopez-Novoa U., Perfecto C. Deep Reinforcement Learning techniques for dynamic task offloading in the 5G edge-cloud continuum. Journal of Cloud Computing. 2024. vol. 13. no. 1. DOI: 10.1186/s13677-024-00658-0.
22. Haarnoja T., Zhou A., Abbeel P., Levine S. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. Proceedings of the 35th International Conference on Machine Learning. 2018. vol. 80. pp. 1861–1870.
23. Christodoulou P. Soft actor-critic for discrete action settings. arXiv preprint arXiv:1910.07207. 2019. DOI: 10.48550/arXiv.1910.07207.
24. Ismail A.A., Khalifa N.E., El-Khoribi R.A. A survey on resource scheduling approaches in multi-access edge computing environment: A deep reinforcement learning study. Cluster Computing. 2025. vol. 28. no. 3. DOI: 10.1007/s10586-024-04893-7.
25. Mock J.W., Muknahallipatna S.S. A comparison of PPO, TD3 and SAC reinforcement algorithms for quadruped walking gait generation. Journal of Intelligent Learning Systems and Applications. 2023. vol. 15. no. 1. pp. 36–56. DOI: 10.4236/jilsa.2023.151003.
Опубликован
Как цитировать
Раздел
Copyright (c) Иван Викторович Филянин, Александр Александрович Капитонов, Артем Игоревич Тимощук-Бондарь

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).