Clip range
Clip range
Определение
Clip range (ε) — гиперпараметр в алгоритме PPO (Proximal Policy Optimization), ограничивающий величину обновления политики. Он задаёт максимальное допустимое отношение вероятностей действий между новой и старой политикой, предотвращая слишком большие шаги обновления. Слишком большое значение ε приводит к нестабильности обучения, а слишком маленькое — к медленной сходимости.