TRL

TRL

Определение

TRL (Transformer Reinforcement Learning) — библиотека от Hugging Face для обучения языковых моделей с подкреплением (RLHF). Она предоставляет готовые реализации ключевых алгоритмов: PPO, DPO, GRPO, а также инструменты для сбора предпочтений (preference data) и обучения Reward Model. TRL тесно интегрирована с экосистемой Hugging Face (Transformers, PEFT, Accelerate) и поддерживает эффективные методы fine-tuning, такие как QLoRA.

Где встречается

Навигация