中文翻译暂不可用,显示俄语原文。

shaped reward

shaped reward

Определение

Модифицированная функция награды, предоставляющая промежуточные сигналы агенту в процессе обучения. Часто используется в алгоритмах вроде PPO для ускорения сходимости за счёт дополнительной информации о близости к цели.

Где встречается

Навигация