trust region

trust region

Определение

Trust region (доверительная область) — это концепция в обучении с подкреплением, при которой обновления политики ограничиваются некоторой областью вокруг текущей модели, чтобы избежать слишком больших и дестабилизирующих изменений. В контексте RLHF доверительная область реализуется через KL-штраф, который penalizes отклонение от референтной модели, обеспечивая стабильное обучение и сохранение ранее полученных знаний. Такой подход предотвращает катастрофическое забывание и гарантирует, что улучшения происходят в рамках безопасной области.

Где встречается

Навигация