Тан, И., & Герман, Ю. О. (2026). Улучшенное Q-обучение для навигации по сетке, использующее априорные приоритеты направлений, выбор маршрутов методом отжига и оптимизацию вознаграждений на основе потенциальной достижимости цели. Информатика и автоматизация, 25(4), 1235-1259. https://doi.org/10.15622/ia.25.4.9