Скрытый смысл: декодировка роевого поведения роботов с помощью глубокого обратного обучения с подкреплением
Ключевые слова:
обратное обучение с подкреплением, функция вознаграждения, демонстрации, поисковое поведение, навигационное поведениеАннотация
Использование обучения с подкреплением для создания коллективного поведения роевых роботов является распространенным подходом. Тем не менее, формулирование соответствующей функции вознаграждения, которая соответствовала бы конкретным целям, остается серьезной проблемой, особенно по мере увеличения сложности задач. В этой статье мы разрабатываем модель глубокого обратного обучения с подкреплением, чтобы раскрыть структуры вознаграждения, которые помогают автономным роботам выполнять задачи посредством демонстраций. Модели глубокого обратного обучения с подкреплением особенно хорошо подходят для сложных и динамичных сред, где может быть сложно указать заранее определенные функции вознаграждения. Наша модель может генерировать различное коллективное поведение в соответствии с требуемыми целями и эффективно справляется с непрерывными пространствами состояний и действий, обеспечивая детальное восстановление структур вознаграждения. Мы протестировали модель с помощью роботов E-puck в симуляторе Webots для решения двух задач: поиска рассредоточенных коробок и навигации к заданной позиции. Получение вознаграждения зависит от демонстраций, собранных интеллектуальным предварительно обученным роем, использующим обучение с подкреплением в качестве эксперта. Результаты показывают успешное получение вознаграждения как в сегментированной, так и в непрерывной демонстрации двух типов поведения — поиска и навигации. Наблюдая за изученным поведением роя экспертом и предложенной моделью, можно заметить, что модель не просто клонирует поведение эксперта, но генерирует свои собственные стратегии для достижения целей системы.
Литература
2. Schranz M., Umlauft M., Sende M., Elmenreich W. Swarm robotic behaviors and current applications. Frontiers in Robotics and AI. 2020. vol. 7.
3. Cheraghi A., Shahzad S., Graffi K. Past, present, and future of swarm robotics. In Intelligent Systems and Applications: Proceedings of the 2021 Intelligent Systems Conference (IntelliSys). 2022. vol. 3. pp. 190–233.
4. Brambilla M., Ferrante E., Birattari M., Dorigo M. Swarm robotics: a review from the swarm engineering perspective. Swarm Intelligence. 2013. vol. 7. pp. 1-41.
5. Nauta J., Van Havermaet S., Simoens P., Khaluf Y. Enhanced foraging in robot swarms using collective lévy walks. In 24th European Conference on Artificial Intelligence (ECAI). 2020. pp. 171–178.
6. Misir O., Gokrem L. Flocking-based self-organized aggregation behavior method for swarm robotics. Iranian Journal of Science and Technology, Transactions of Electrical Engineering. 2021. vol. 45. no. 4. pp. 1427–1444.
7. Sadeghi A., Raoufi M., Turgut A. A self-adaptive landmark-based aggregation method for robot swarms. Adaptive Behavior. 2022. vol. 30. no. 3. pp. 223–236.
8. Lu Q., Hecker J., Moses M. The MPFA: A multiple-place foraging algorithm for biologically-inspired robot swarms. In 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2016. pp. 3815–3821.
9. Lopes Y., Trenkwalder S., Leal A., Dodd T., Groß R. Supervisory control theory applied to swarm robotics. Swarm Intelligence. 2016. vol. 10. pp. 65–97.
10. Hamann H. Swarm robotics: A formal approach. Cham: Springer, 2018. 210 p.
11. Berlinger F., Gauci M., Nagpal R. Implicit coordination for 3D underwater collective behaviors in a fish-inspired robot swarm. Science Robotics. 2021. vol. 6. no. 50. DOI: 10.1126/scirobotics.abd8668.
12. Zhang J., Lu Y., Che L., Zhou M. Moving-distance-minimized PSO for mobile robot swarm. IEEE Transactions on Cybernetics. 2021. vol. 52. no. 9. pp. 9871–9881.
13. Parhi D., Sahu C., Kumar P. Navigation of multiple humanoid robots using hybrid adaptive swarm-adaptive ant colony optimisation technique. Computer Animation and Virtual Worlds. 2018. vol. 29. no. 2. DOI: 10.1002/cav.1802.
14. Jiang L., Mo H., Tian P. An adaptive decentralized control strategy for deployment and aggregation of swarm robots based on bacterial chemotaxis. Applied Intelligence. 2023. vol. 53. no. 10. pp. 13018–13036.
15. Hu C., Arvin F., Bellotto N., Yue S., Li H. Swarm neuro-robots with the bio-inspired environmental perception. Frontiers in Neurorobotics. 2024. vol. 18.
16. Hasselmann K., Ligot A., Birattari M. Automatic modular design of robot swarms based on repertoires of behaviors generated via novelty search. Swarm and Evolutionary Computation. 2023. vol. 83.
17. Birattari M., Ligot A., Francesca G. AutoMoDe: a modular approach to the automatic off-line design and fine-tuning of control software for robot swarms. Automated Design of Machine Learning and Search Algorithms. 2021. pp. 73–90.
18. Stolfi D., Danoy G. Evolutionary swarm formation: From simulations to real world robots. Engineering Applications of Artificial Intelligence. 2024. vol. 128. DOI: 10.1016/j.engappai.2023.107501.
19. Blais M., Akhloufi M. Reinforcement learning for swarm robotics: An overview of applications, algorithms and simulators. Cognitive Robotics. 2023. vol. 3. pp. 226–256. DOI: 10.1016/j.cogr.2023.07.004.
20. Sutton R., Barto A. Reinforcement learning: An introduction. The MIT press, 2018. 552 p.
21. Iskandar A., Rostum H., Kovacs B. Using Deep Reinforcement Learning to Solve a Navigation Problem for a Swarm Robotics System. Proceedings of the 24th International Carpathian Control Conference (ICCC). IEEE, 2023. pp. 185–189.
22. Wei Y., Nie X., Hiraga M., Ohkura K., Car Z. Developing end to end control policies for robotic swarms using deep Q-learning. Journal of Advanced Computational Intelligence and Intelligent Informatics. 2019. vol. 23. no. 5. pp. 920–927.
23. Jin B., Liang Y., Han Z., Hiraga M., Ohkura K. A hierarchical training method of generating collective foraging behavior for a robotic swarm. Artificial Life and Robotics. 2022. vol. 27. pp. 137–141.
24. Arora S., Doshi P. A survey of inverse reinforcement learning: Challenges, methods and progress. Artificial Intelligence. 2021. vol. 297. DOI: 10.1016/j.artint.2021.103500.
25. Pinsler R., Maag M., Arenz O., Neumann G. Inverse reinforcement learning of bird flocking behavior. ICRA Swarms Workshop. 2018.
26. Chen M., Zhang P. Area Coverage for Swarm Robots Via Inverse Reinforcement Learning. 2023. 9 p.
27. Gharbi I., Kuckling J., Ramos D., Birattari M. Show me what you want: Inverse reinforcement learning to automatically design robot swarms by demonstration. In 2023 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2023. pp. 5063–5070.
28. Schulman J., Wolski F., Dhariwal P., Radford A., Klimov O. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347. 2017.
Опубликован
Как цитировать
Раздел
Copyright (c) Ali Hammoud
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).