Trust Region Policy Optimization
Trust Region Policy Optimization
Определение
Trust Region Policy Optimization (TRPO) — это алгоритм обучения с подкреплением, который гарантирует монотонное улучшение политики за счёт ограничения шага обновления. В TRPO новая политика не может отклоняться слишком далеко от старой, а расстояние между ними измеряется с помощью KL-дивергенции, что обеспечивает стабильность и предотвращает катастрофические падения производительности. Этот подход заложил основы для более поздних алгоритмов, таких как PPO.