Kullback–Leibler divergence

aliases: [] tags: [wiki, термин, general]

Kullback–Leibler divergence

Определение

Расхождение Кульбака–Лейблера (KL-дивергенция) — это несимметричная мера различия между двумя распределениями вероятностей. В машинном обучении она часто применяется для оценки того, насколько одно распределение (например, выход student-модели) отклоняется от другого (выход teacher-модели). KL-дивергенция широко используется в задачах дистилляции знаний и в методах обучения с подкреплением на основе человеческой обратной связи (RLHF) для регуляризации политики.

Где встречается

Навигация