TRPO

TRPO

Определение

TRPO (Trust Region Policy Optimization) — метод обучения с подкреплением, который ограничивает изменение политики на каждом шаге, чтобы избежать деградации производительности из-за слишком больших обновлений. Для этого используется ограничение на KL-дивергенцию между старой и новой политикой, что гарантирует нахождение в «доверительной области» (trust region). TRPO послужил основой для более простого и эффективного алгоритма PPO.

Где встречается

Навигация