(1)
Тан, И.; Герман, Ю. О. Улучшенное Q-обучение для навигации по сетке, использующее априорные приоритеты направлений, выбор маршрутов методом отжига и оптимизацию вознаграждений на основе потенциальной достижимости цели. ИА 2026, 25, 1235-1259.