TRPO
TRPO
Определение
TRPO (Trust Region Policy Optimization) — метод обучения с подкреплением, который ограничивает изменение политики на каждом шаге, чтобы избежать деградации производительности из-за слишком больших обновлений. Для этого используется ограничение на KL-дивергенцию между старой и новой политикой, что гарантирует нахождение в «доверительной области» (trust region). TRPO послужил основой для более простого и эффективного алгоритма PPO.
Где встречается
- 986. Как работает PPO (Proximal Policy Optimization) для LLM?
- 987. Что такое KL penalty в PPO?
- 998. Как работает DPOP (Dual Policy Optimization)?