中文翻译暂不可用,显示俄语原文。
Hugging Face TRL
Hugging Face TRL
Определение
Библиотека от Hugging Face для reinforcement learning fine-tuning моделей, включающая реализации PPO, DPO, GRPO. Используется в RLHF и онлайн обучении агентов.
Где встречается
- 33. Какие фреймворки для fine-tuning вы используете
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 38. Как вы fine-tune модель для функции вызов внешнего API
- 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
- 328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
- 329. Как обучается reward model для RLHF и как избегать reward hacking
- 330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
- 331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
- 334. Как вы делаете online RL для агентов (self-improvement loops)
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 340. Что такое Constitutional AI и как RLHF связан с ним
- 344. Что такое reward hacking в RLHF и как его детектировать
- 400. Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофиче...
- 489. Что такое reward hacking в RLHF и как его детектировать
- 514. Как вы генерируете synthetic данные для instruction tuning
- 579. Как работает agent replay для улучшения качества (анализ failed траекторий)
- 681. Как вы генерируете синтетический датасет для instruction tuning Self-instruct, Evol-Instruct
- 686. Как работает synthetic data для RLHF (предпочтения)
- 700. Как вы комбинируете реальные и синтетические данные для максимального качества
- 873. Как детектировать reward hacking в RLHF
- 800+ вопросов
- 65. Реализовать process reward model
- 223. Fine-tune LoRA для стиля