Clip range

Clip range

Определение

Clip range (ε) — гиперпараметр в алгоритме PPO (Proximal Policy Optimization), ограничивающий величину обновления политики. Он задаёт максимальное допустимое отношение вероятностей действий между новой и старой политикой, предотвращая слишком большие шаги обновления. Слишком большое значение ε приводит к нестабильности обучения, а слишком маленькое — к медленной сходимости.

Где встречается

Навигация