Adaptive KL penalty
Adaptive KL penalty
Определение
Механизм динамической подстройки коэффициента β в PPO для контроля KL-дивергенции между текущей и референтной политикой.
Механизм динамической подстройки коэффициента β в PPO для контроля KL-дивергенции между текущей и референтной политикой.