KL divergence

KL divergence

Определение

Мера различия между двумя вероятностными распределениями. Используется в RLHF для штрафа за отклонение от референсной модели и в дистилляции для минимизации расхождения распределений.

Где встречается

Навигация