Reference model
Reference model
Определение
Reference model (π_ref) — это замороженная копия языковой модели, используемая в RLHF (Reinforcement Learning from Human Feedback) для вычисления KL-дивергенции. Она служит эталоном, относительно которого штрафуется отклонение обучаемой модели (Actor) с помощью KL penalty. Reference model не обновляется в процессе обучения и фиксирует исходное поведение модели до оптимизации.