Улучшенное Q-обучение для навигации по сетке, использующее априорные приоритеты направлений, выбор маршрутов методом отжига и оптимизацию вознаграждений на основе потенциальной достижимости цели
Ключевые слова:
обучение с подкреплением, инициализация таблицы Q, планирование маршрута, компромисс между разведкой и эксплуатацией, постоянное вознаграждение, сетчатая картаАннотация
В статье представлен улучшенный вариант Q-обучения для навигации по сетке при наличии препятствий. Основываясь на стандартном табличном Q-обучении, предложены три ключевых улучшения: инициализация Q-таблицы с учетом направления к цели, дающее согласование с целью без необходимости предварительного знания о препятствиях; модифицированная стратегия отжига Больцмана, расширенная включением верхнего доверительного предела «энергии» системы для более сбалансированного и адаптивного отбора направления движения; функция расчета вознаграждения на основе потенциала, дающая более тесную обратную связь для ускорения процесса обучения. Отмеченные улучшения повышают эффективность Q-обучения в условиях относительно редких случаев вознаграждения при достижении цели, что связано с неэффективным исследованием области поиска и медленным формированием значений Q-функции. Экспериментальная проверка на случайно сгенерированных сетках, показала, что предложенный в статье подход обеспечивает более успешные конечные результаты, связанные с отысканием более коротких путей к цели и более быстрой сходимостью в сравнении с известными базовыми методами, такими как стандартное Q-обучение и его вариантами. Описанный в статье подход обеспечивает общую модельно-независимую природу Q-обучения и его достаточно высокую эффективность, что важно для практических приложений в робототехнике и планировании маршрутов движения.
Литература
2. Xu X., Zeng J., Zhao Y., Lu X. Research on global path planning algorithm for mobile robots based on improved A* // Expert Systems with Applications. 2024. vol. 243. 122922 p. DOI: 10.1016/j.eswa.2023.122922.
3. Reda M., Onsy A., Haikal A.Y., Ghanbari A. Path planning algorithms in the autonomous driving system: A comprehensive review // Robotics and Autonomous Systems. 2024. vol. 174. 104630 p. DOI: 10.1016/j.robot.2024.104630.
4. Zhang Y., Zhao W., Wang J., Yuan Y. Recent progress, challenges and future prospects of applied deep reinforcement learning: A practical perspective in path planning // Neurocomputing. 2024. vol. 608. 128423 p. DOI: 10.1016/j.neucom.2024.128423.
5. Zhao Y., Zhang Y., Wang S. A Review of Mobile Robot Path Planning Based on Deep Reinforcement Learning Algorithm // Journal of Physics: Conference Series. 2021. vol. 2138. 012011 p. DOI: 10.1088/1742-6596/2138/1/012011.
6. Khlif N., Nahla K., Safya B. Reinforcement learning with modified exploration strategy for mobile robot path planning // Robotica. 2023. vol. 41. no. 9. pp. 2688–2702. DOI: 10.1017/S0263574723000607.
7. Jaramillo-Martinez R., Chavero-Navarrete E., Ibarra-Perez T. Reinforcement-Learning-Based Path Planning: A Reward Function Strategy // Applied Sciences. 2024. vol. 14. no. 17. 7654 p. DOI: 10.3390/app14177654.
8. Zhang Y., Cai P., Pan C., Zhang S. Multi-agent deep reinforcement learning-based cooperative spectrum sensing with upper confidence bound exploration // IEEE Access. 2019. vol. 7. pp. 118898–118906. DOI: 10.1109/ACCESS.2019.2936147.
9. Gao P., Liu Z., Wu Z., Wang D. A global path planning algorithm for robots using reinforcement learning // Proceedings of the IEEE International Conference on Robotics and Biomimetics (ROBIO). 2019. pp. 1693–1698.
10. Zhou Q., Lian Y., Wu J., Zhu M., Wang H., Cao J. An optimized Q-Learning algorithm for mobile robot local path planning // Knowledge-Based Systems. 2024. vol. 286. pp. 111400. DOI: 10.1016/j.knosys.2024.111400.
11. Ben-Akka M., Tanougast C., Diou C. Novel design of reward and epsilon-greedy decay strategy tailored for Q-learning in optimizing local mobile robot path planning // Knowledge-Based Systems. 2025. vol. 324. 113836 p. DOI: 10.1016/j.knosys.2024.113836.
12. Ma T., Lyu J., Yang J., Xi R., Li Y., An J., Li C. CLSQL: Improved Q-Learning Algorithm Based on Continuous Local Search Policy for Mobile Robot Path Planning // Sensors. 2022. vol. 22. no. 15. 5910 p. DOI: 10.3390/s22155910.
13. Huang J., Zhang Z., Ruan X. An Improved Dyna-Q Algorithm Inspired by the Forward Prediction Mechanism in the Rat Brain for Mobile Robot Path Planning // Biomimetics. 2024. vol. 9. no. 6. 315 p. DOI: 10.3390/biomimetics9060315.
14. Hidayat H., Buono A., Priandana K., Wahjuni S. Modified Q-Learning Algorithm for Mobile Robot Path Planning Variation using Motivation Model // Journal of Robotics and Control (JRC). 2023. vol. 4. no. 5. pp. 696–707. DOI: 10.18196/jrc.v4i5.18777.
15. Wang H., Jing J., Wang Q., He H., Qi X., Lou R. ETQ-learning: an improved Q-learning algorithm for path planning // Intelligent Service Robotics. 2024. vol. 17. no. 4.
pp. 915–929. DOI: 10.1007/s11370-024-00544-3.
16. Fallooh N., Sadiq A., Abbas E., Hashim I. Robot path planning using enhanced
Q-learning algorithm based on single parameter // Engineering and Technology Journal. 2025. vol. 43. no. 2. pp. 1–15. DOI: 10.30684/etj.2024.154230.1831.
17. Wang Y., Xie Y., Xu D., Shi J., Fang S., Gui W. Heuristic dense reward shaping for learning-based map-free navigation of industrial automatic mobile robots // ISA Transactions. 2025. vol. 156. pp. 579–596. DOI: 10.1016/j.isatra.2024.10.026.
18. Zhang T., Mo H. Reinforcement learning for robot research: A comprehensive review and open issues // International Journal of Advanced Robotic Systems. 2021. vol. 18. no. 3. pp. 1–22. DOI: 10.1177/17298814211007305.
19. Shi Z., Wang K., Zhang J. Improved reinforcement learning path planning algorithm integrating prior knowledge // PLoS ONE. 2023. vol. 18. no. 5. e0285129 p. DOI: 10.1371/journal.pone.0284942.
20. Miranda V., Neto A.A., Freitas G., Mozelli L.A. Generalization in Deep Reinforcement Learning for Robotic Navigation by Reward Shaping // IEEE Transactions on Industrial Electronics. 2023. vol. 71. no. 6. pp. 6013–6020. DOI: 10.1109/TIE.2023.3290244.
21. Lv Q., Hao G., Huang Z., Li B., Fu D., Zhao H., et al. Localized Path Planning for Mobile Robots Based on a Subarea-Artificial Potential Field Model // Sensors. 2024. vol. 24. no. 11. 3604 p. DOI: 10.3390/s24113604.
22. Clifton J., Laber E. Q-Learning: Theory and Applications // Annual Review of Statistics and Its Application. 2020. vol. 7. pp. 279–301. DOI: 10.1146/annurev-statistics-031219-041220.
Опубликован
Как цитировать
Раздел
Copyright (c) Yi Tang, Unknown

Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).