Тан, И., Герман, Ю.О.: Улучшенное Q-обучение для навигации по сетке, использующее априорные приоритеты направлений, выбор маршрутов методом отжига и оптимизацию вознаграждений на основе потенциальной достижимости цели. Информатика и автоматизация 25(4), 1235-1259 (2026). doi:10.15622/ia.25.4.9