目录
问题
实践
百科
社区资料
测试
搜索

✈Telegram @ai_varo

…

目录/百科/SFT

中文翻译暂不可用，显示俄语原文。

SFT

SFT

Определение

Supervised Fine-Tuning — метод дообучения модели на размеченных парах инструкция-ответ; первый этап RLHF для адаптации стиля и следования инструкциям.

Где встречается

28. Какие данные нужны для fine-tuning на кастомный стиль общения
36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
38. Как вы fine-tune модель для функции вызов внешнего API
93. Как вы дебажите проблему LLM не следовала системному промпту
326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
332. Как работает KL penalty в RLHF и как подобрать коэффициент
337. Как вы проверяете, что RLHF не сломал базовые способности модели
340. Что такое Constitutional AI и как RLHF связан с ним
344. Что такое reward hacking в RLHF и как его детектировать
360. Что такое adversarial fine-tuning для защиты от jailbreak
488. Что такое benchmark contamination и как ее детектировать
489. Что такое reward hacking в RLHF и как его детектировать
514. Как вы генерируете synthetic данные для instruction tuning
584. Что такое agent distillation (обучение маленького агента на траекториях большого)
589. Как вы делаете agent с human values alignment (Constitutional AI для агентов)
657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)
686. Как работает synthetic data для RLHF (предпочтения)
888. Как защититься от prompt stealing (кража системного промпта)
892. Как работают verifier models для agentic RAG
898. Как работает Toolformer (обучение агента использованию инструментов)
899. Что такое DSPy в контексте агентов
800+ вопросов
223. Fine-tune LoRA для стиля

Навигация

Индекс терминов
Индекс разборов
Оглавление