Тан И, Герман ЮО. Улучшенное Q-обучение для навигации по сетке, использующее априорные приоритеты направлений, выбор маршрутов методом отжига и оптимизацию вознаграждений на основе потенциальной достижимости цели. ИА [Интернет]. 3июл.2026 [цитируется по 4июл.2026];25(4):1235-59. Available from: https://ia.spcras.ru/index.php/sp/article/view/17487