Knowledge Portal

aivaro.ru

  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Тесты
  • Поиск
✈Telegram @AetSeidhe
RUEN中文
…
Оглавление/Вики/Reward

Reward

Reward

Определение

ReST лучше всего применять для задач с чётким reward, где можно легко фильтровать генерации.

Где встречается

  • 153. Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста
  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминevaluation

Ссылки

  • Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста?

Обратные ссылки (32)

  • GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?
  • Индекс терминов
  • Как вы делаете agent evaluation на длинных horizon (100+ шагов)?
  • Как вы делаете agent с human values alignment (Constitutional AI для агентов)?
  • Как вы делаете online RL для агентов (self-improvement loops)?
  • Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)?
  • Как вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)?
  • Как детектировать reward hacking в RLHF?
  • Как обучается reward model для RLHF и как избегать reward hacking?
  • Как оценивать multi-step agents (не только final answer)?
  • Как предотвращать collusion (сговор) между агентами в децентрализованной системе?
  • Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?
  • Как работает KL penalty в RLHF и как подобрать коэффициент?
  • Как работает RLHF (Reinforcement Learning from Human Feedback) технически?
  • Как работает tree search (MCTS) для LLM агентов?
  • Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?
  • Как работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)?
  • Почему агенты деградируют на длинных horizon (более 10 шагов)?
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с tree search (MCTS) для математической задачи
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить MCTS для математических задач
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать process reward model (PRM)
  • Что такое Constitutional AI и как оно применяется в производстве?
  • Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF?
  • Что такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?
  • Что такое agent explanation fidelity (насколько объяснение соответствует реальному решению)?
  • Что такое calibration в контексте reward model для RLHF?
  • Что такое emergent specialization в multi-agent systems (агенты сами распределяют роли)?
  • Что такое reward correlation и как ее измерять?
  • Что такое reward hacking в RLHF и как его детектировать?
  • Что такое tree search agents (MCTS for LLM) и когда они эффективны?
  • Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?
  • Что такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста?