TRPO

Определение

TRPO (Trust Region Policy Optimization) — метод обучения с подкреплением, который ограничивает изменение политики на каждом шаге, чтобы избежать деградации производительности из-за слишком больших обновлений. Для этого используется ограничение на KL-дивергенцию между старой и новой политикой, что гарантирует нахождение в «доверительной области» (trust region). TRPO послужил основой для более простого и эффективного алгоритма PPO.

Где встречается

986. Как работает PPO (Proximal Policy Optimization) для LLM?
987. Что такое KL penalty в PPO?
998. Как работает DPOP (Dual Policy Optimization)?

TRPO

TRPO

Определение

Где встречается

Навигация