中文翻译暂不可用,显示俄语原文。

Clip range

Clip range

Определение

Clip range (ε) — гиперпараметр в алгоритме PPO (Proximal Policy Optimization), ограничивающий величину обновления политики. Он задаёт максимальное допустимое отношение вероятностей действий между новой и старой политикой, предотвращая слишком большие шаги обновления. Слишком большое значение ε приводит к нестабильности обучения, а слишком маленькое — к медленной сходимости.

Где встречается

Навигация