中文翻译暂不可用,显示俄语原文。
shaped reward
shaped reward
Определение
Модифицированная функция награды, предоставляющая промежуточные сигналы агенту в процессе обучения. Часто используется в алгоритмах вроде PPO для ускорения сходимости за счёт дополнительной информации о близости к цели.