Off-policy correction

Off-policy correction

Определение

Off-policy correction — техника, при которой траектории собираются старой (поведенческой) политикой, но градиент обновления вычисляется для текущей (целевой) политики с помощью importance sampling. Это позволяет повторно использовать ранее собранные данные без дополнительного сбора новых траекторий, что повышает эффективность обучения. Коррекция необходима, так как распределения действий старой и новой политик различаются, и без взвешивания градиент был бы смещён.

Где встречается

Навигация