Kullback-Leibler divergence

Kullback-Leibler divergence

Определение

Kullback-Leibler divergence (KL-дивергенция) — это несимметричная мера различия между двумя распределениями вероятностей. Она показывает, насколько одно распределение (обычно приближённое) отличается от другого (эталонного). В обучении с подкреплением, в частности в PPO, KL-дивергенция используется как штраф (KL penalty) для ограничения отклонения новой политики (актора) от референсной, предотвращая слишком резкие изменения.

Где встречается

Навигация