KL-регуляризация

KL-регуляризация

Определение

KL-регуляризация (KL divergence regularization) — это техника, применяемая в RLHF для ограничения отклонения политики (языковой модели) от исходного распределения, обычно предобученной или SFT-модели. В процессе обучения с подкреплением к функции потерь добавляется штраф, пропорциональный KL-дивергенции между текущей политикой и референсной моделью. Это предотвращает чрезмерную оптимизацию под сигнал награды, сохраняя семантическую согласованность и разнообразие генерируемого текста.

Где встречается

Навигация