PPO-adaptive KL

PPO-adaptive KL

Определение

PPO-adaptive KL — это метод в RLHF, при котором коэффициент штрафа за KL-дивергенцию между текущей и референтной моделями динамически подстраивается в процессе обучения. В отличие от фиксированного KL-штрафа, adaptive KL позволяет автоматически регулировать силу ограничения в зависимости от поведения модели, предотвращая слишком быстрое отклонение от исходной политики. Это улучшает стабильность и качество обучения PPO при дообучении языковых моделей.

Где встречается

Навигация