中文翻译暂不可用,显示俄语原文。
Clip range
Clip range
Определение
Clip range (ε) — гиперпараметр в алгоритме PPO (Proximal Policy Optimization), ограничивающий величину обновления политики. Он задаёт максимальное допустимое отношение вероятностей действий между новой и старой политикой, предотвращая слишком большие шаги обновления. Слишком большое значение ε приводит к нестабильности обучения, а слишком маленькое — к медленной сходимости.