Hugging Face TRL

Определение

Библиотека от Hugging Face для reinforcement learning fine-tuning моделей, включающая реализации PPO, DPO, GRPO. Используется в RLHF и онлайн обучении агентов.

Где встречается

33. Какие фреймворки для fine-tuning вы используете
36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
38. Как вы fine-tune модель для функции вызов внешнего API
326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
329. Как обучается reward model для RLHF и как избегать reward hacking
330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
334. Как вы делаете online RL для агентов (self-improvement loops)
337. Как вы проверяете, что RLHF не сломал базовые способности модели
340. Что такое Constitutional AI и как RLHF связан с ним
344. Что такое reward hacking в RLHF и как его детектировать
400. Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофиче...
489. Что такое reward hacking в RLHF и как его детектировать
514. Как вы генерируете synthetic данные для instruction tuning
579. Как работает agent replay для улучшения качества (анализ failed траекторий)
681. Как вы генерируете синтетический датасет для instruction tuning Self-instruct, Evol-Instruct
686. Как работает synthetic data для RLHF (предпочтения)
700. Как вы комбинируете реальные и синтетические данные для максимального качества
873. Как детектировать reward hacking в RLHF
800+ вопросов
65. Реализовать process reward model
223. Fine-tune LoRA для стиля

Hugging Face TRL

Hugging Face TRL

Определение

Где встречается

Навигация

Hugging Face TRL

Hugging Face TRL

Определение

Где встречается

Навигация