Trust Region Policy Optimization

Определение

Trust Region Policy Optimization (TRPO) — это алгоритм обучения с подкреплением, который гарантирует монотонное улучшение политики за счёт ограничения шага обновления. В TRPO новая политика не может отклоняться слишком далеко от старой, а расстояние между ними измеряется с помощью KL-дивергенции, что обеспечивает стабильность и предотвращает катастрофические падения производительности. Этот подход заложил основы для более поздних алгоритмов, таких как PPO.

Где встречается

987. Что такое KL penalty в PPO? Зачем ограничивать новую модель от старой?

Trust Region Policy Optimization

Trust Region Policy Optimization

Определение

Где встречается

Навигация