TRL
TRL
Определение
TRL (Transformer Reinforcement Learning) — библиотека от Hugging Face для обучения языковых моделей с подкреплением (RLHF). Она предоставляет готовые реализации ключевых алгоритмов: PPO, DPO, GRPO, а также инструменты для сбора предпочтений (preference data) и обучения Reward Model. TRL тесно интегрирована с экосистемой Hugging Face (Transformers, PEFT, Accelerate) и поддерживает эффективные методы fine-tuning, такие как QLoRA.
Где встречается
- 955. Что такое QLoRA? Как 4-bit NormalFloat (NF4) quantization и Double Quantization
- 963. Какие данные нужны для fine-tuning на инструкции?
- 973. Какие фреймворки для fine-tuning вы используете?
- 981. Что такое RLHF в 3 шагах?
- 982. Для чего нужен SFT перед RLHF?
-
- Как собирать preference data для RLHF?
- 986. Как работает PPO для LLM?
- 988. Почему DPO проще PPO?
- 989. Что такое GRPO?
- 992. Что такое reward hacking?
- 997. Что такое RLAIF?