[1]

Тан, И. и Герман, Ю.О. 2026. Улучшенное Q-обучение для навигации по сетке, использующее априорные приоритеты направлений, выбор маршрутов методом отжига и оптимизацию вознаграждений на основе потенциальной достижимости цели. Информатика и автоматизация. 25, 4 (июл. 2026), 1235-1259. DOI:https://doi.org/10.15622/ia.25.4.9.