Kullback–Leibler divergence
aliases: [] tags: [wiki, термин, general]
Kullback–Leibler divergence
Определение
Расхождение Кульбака–Лейблера (KL-дивергенция) — это несимметричная мера различия между двумя распределениями вероятностей. В машинном обучении она часто применяется для оценки того, насколько одно распределение (например, выход student-модели) отклоняется от другого (выход teacher-модели). KL-дивергенция широко используется в задачах дистилляции знаний и в методах обучения с подкреплением на основе человеческой обратной связи (RLHF) для регуляризации политики.
Где встречается
- 971. Что такое Distillation для LLM? Как обучить маленькую модель (student) на выхода
- 981. Что такое RLHF (Reinforcement Learning from Human Feedback) в 3 шагах? (SFT, Reward Model, RL).