PPO-adaptive KL
PPO-adaptive KL
Определение
PPO-adaptive KL — это метод в RLHF, при котором коэффициент штрафа за KL-дивергенцию между текущей и референтной моделями динамически подстраивается в процессе обучения. В отличие от фиксированного KL-штрафа, adaptive KL позволяет автоматически регулировать силу ограничения в зависимости от поведения модели, предотвращая слишком быстрое отклонение от исходной политики. Это улучшает стабильность и качество обучения PPO при дообучении языковых моделей.