Off-policy correction
Off-policy correction
Определение
Off-policy correction — техника, при которой траектории собираются старой (поведенческой) политикой, но градиент обновления вычисляется для текущей (целевой) политики с помощью importance sampling. Это позволяет повторно использовать ранее собранные данные без дополнительного сбора новых траекторий, что повышает эффективность обучения. Коррекция необходима, так как распределения действий старой и новой политик различаются, и без взвешивания градиент был бы смещён.