目录
问题
实践
百科
社区资料
测试
搜索

✈Telegram @ai_varo

…

目录/百科/reward model

中文翻译暂不可用，显示俄语原文。

reward model

reward model

Определение

Компонент RLHF, обучаемый на ранжированных данных для оценки качества ответов.

Где встречается

36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста
259. Как вы генерируете synthetic данные для instruction tuning
326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически
328. GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен
329. Как обучается reward model для RLHF и как избегать reward hacking
330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
332. Как работает KL penalty в RLHF и как подобрать коэффициент
333. Что такое preference data collection и как минимизировать bias в сравнениях
334. Как вы делаете online RL для агентов (self-improvement loops)
335. Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)
336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO
337. Как вы проверяете, что RLHF не сломал базовые способности модели
339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
340. Что такое Constitutional AI и как RLHF связан с ним
344. Что такое reward hacking в RLHF и как его детектировать
360. Что такое adversarial fine-tuning для защиты от jailbreak
489. Что такое reward hacking в RLHF и как его детектировать
496. Что такое reward correlation и как ее измерять
507. Что такое calibration в контексте reward model для RLHF
570. Что такое tree search agents (MCTS for LLM) и когда они эффективны
571. Как работают verifier models для agentic RAG и зачем они нужны
573. Как вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)
579. Как работает agent replay для улучшения качества (анализ failed траекторий)
589. Как вы делаете agent с human values alignment (Constitutional AI для агентов)
594. Что такое agent safety constraints (ограничения на действия агента)
638. Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)
657. Что такое KL divergence и где она применяется в LLM (RLHF, distillation)
686. Как работает synthetic data для RLHF (предпочтения)
693. Как вы обнаруживаете contamination (пересечение synthetic данных с тестовыми)
873. Как детектировать reward hacking в RLHF
893. Как работает tree search (MCTS) для LLM агентов
895. Как оптимизировать траектории агента (trajectory optimization)
800+ вопросов
63. Реализовать verifier-guided decoding
270. Настроить RLAIF для генерации предпочтений

Навигация

Индекс терминов
Индекс разборов
Оглавление