PPO-adaptive KL

Определение

PPO-adaptive KL — это метод в RLHF, при котором коэффициент штрафа за KL-дивергенцию между текущей и референтной моделями динамически подстраивается в процессе обучения. В отличие от фиксированного KL-штрафа, adaptive KL позволяет автоматически регулировать силу ограничения в зависимости от поведения модели, предотвращая слишком быстрое отклонение от исходной политики. Это улучшает стабильность и качество обучения PPO при дообучении языковых моделей.

Где встречается

986. Как работает PPO (Proximal Policy Optimization) для LLM? Объясните: Actor (LLM), Critic (Value model), Clipping, KL penalty.

PPO-adaptive KL

PPO-adaptive KL

Определение

Где встречается

Навигация