中文翻译暂不可用,显示俄语原文。
SFT
SFT
Определение
Supervised Fine-Tuning — метод дообучения модели на размеченных парах инструкция-ответ; первый этап RLHF для адаптации стиля и следования инструкциям.
Где встречается
- 28. Какие данные нужны для fine-tuning на кастомный стиль общения
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 38. Как вы fine-tune модель для функции вызов внешнего API
- 93. Как вы дебажите проблему LLM не следовала системному промпту
- 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
- 328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
- 331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
- 332. Как работает KL penalty в RLHF и как подобрать коэффициент
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 340. Что такое Constitutional AI и как RLHF связан с ним
- 344. Что такое reward hacking в RLHF и как его детектировать
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 488. Что такое benchmark contamination и как ее детектировать
- 489. Что такое reward hacking в RLHF и как его детектировать
- 514. Как вы генерируете synthetic данные для instruction tuning
- 584. Что такое agent distillation (обучение маленького агента на траекториях большого)
- 589. Как вы делаете agent с human values alignment (Constitutional AI для агентов)
- 657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)
- 686. Как работает synthetic data для RLHF (предпочтения)
- 888. Как защититься от prompt stealing (кража системного промпта)
- 892. Как работают verifier models для agentic RAG
- 898. Как работает Toolformer (обучение агента использованию инструментов)
- 899. Что такое DSPy в контексте агентов
- 800+ вопросов
- 223. Fine-tune LoRA для стиля