中文翻译暂不可用,显示俄语原文。
reward model
reward model
Определение
Компонент RLHF, обучаемый на ранжированных данных для оценки качества ответов.
Где встречается
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
- 153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста
- 259. Как вы генерируете synthetic данные для instruction tuning
- 326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
- 328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
- 329. Как обучается reward model для RLHF и как избегать reward hacking
- 330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
- 331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
- 332. Как работает KL penalty в RLHF и как подобрать коэффициент
- 333. Что такое preference data collection и как минимизировать bias в сравнениях
- 334. Как вы делаете online RL для агентов (self-improvement loops)
- 335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
- 336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
- 340. Что такое Constitutional AI и как RLHF связан с ним
- 344. Что такое reward hacking в RLHF и как его детектировать
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 489. Что такое reward hacking в RLHF и как его детектировать
- 496. Что такое reward correlation и как ее измерять
- 507. Что такое calibration в контексте reward model для RLHF
- 570. Что такое tree search agents (MCTS for LLM) и когда они эффективны
- 571. Как работают verifier models для agentic RAG и зачем они нужны
- 573. Как вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)
- 579. Как работает agent replay для улучшения качества (анализ failed траекторий)
- 589. Как вы делаете agent с human values alignment (Constitutional AI для агентов)
- 594. Что такое agent safety constraints (ограничения на действия агента)
- 638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)
- 657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)
- 686. Как работает synthetic data для RLHF (предпочтения)
- 693. Как вы обнаруживаете contamination (пересечение synthetic данных с тестовыми)
- 873. Как детектировать reward hacking в RLHF
- 893. Как работает tree search (MCTS) для LLM агентов
- 895. Как оптимизировать траектории агента (trajectory optimization)
- 800+ вопросов
- 63. Реализовать verifier-guided decoding
- 270. Настроить RLAIF для генерации предпочтений