ТАН, И.; ГЕРМАН, Ю. О. Улучшенное Q-обучение для навигации по сетке, использующее априорные приоритеты направлений, выбор маршрутов методом отжига и оптимизацию вознаграждений на основе потенциальной достижимости цели. Информатика и автоматизация, v. 25, n. 4, p. 1235-1259, 3 jul. 2026.