Clip ε

Определение

Гиперпараметр PPO (обычно 0.2), ограничивающий отношение вероятностей новой и старой политики для стабильности обучения.