Поиск

answerЧто такое reward hacking в RLHF и как его детектировать?
…Это происходит из-за несовершенства [[Вики/reward model\|reward]] [[Вики/model\|model]]: [[Вики/model\|модель]] учится «обманывать» её, а не…
answerЧто такое reward correlation и как ее измерять?
…Reward Model (модель вознаграждения) **[[Вики/reward model\|Reward]] [[Вики/model\|model]]** — это [[Вики/neural network\|нейросеть]] (обычно на базе [[Вики…
wikiensemble RM
# ensemble RM ## Определение Сокращение от ensemble reward models; подход, использующий несколько reward моделей с усреднением или минимумом их оценок для…
wikiensemble reward models
# ensemble reward models ## Определение Метод, при котором несколько reward моделей обучаются и их выходы усредняются или комбинируются для снижения риска…
answerЧто такое reward hacking в RLHF и как его детектировать?
…Почему это происходит - [[Вики/reward model\|Reward model]] — это приближение, она не идеальна. - [[Вики/model\|Модель]] может найти «дыры»: например…
wikiProcess reward model
# Process reward model ## Определение Модель, оценивающая каждый шаг агента (или рассуждения), а не только финальный ответ; используется для детальной обратной…
answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?
…набор троек `([[Вики/промпт агента\|prompt]], chosen_response, rejected_response)`. ### 3.2 Обучение reward model - [[Вики/reward model\|Reward model…
answerКак работает KL penalty в RLHF и как подобрать коэффициент?
…Её веса не обновляются, используется как якорь. **[[Вики/reward model\|Reward model]]** — [[Вики/model\|модель]], обученная предсказывать оценку ([[Вики/Reward…
wikiCalibration RM
# Calibration RM ## Определение Обучение reward model предсказывать калиброванные вероятности, например через Platt scaling, для уменьшения reward hacking. ## Где встречается - [[329…
wikiOutcome Reward Model
# Outcome Reward Model ## Определение Модель, оценивающая только финальный ответ (outcome) в RL, в отличие от Process Reward Model, оценивающей каждый…
wikiSFT Model
# SFT Model ## Определение Модель после supervised fine-tuning, используемая как reference policy в RLHF. ## Где встречается - [[329. Как обучается reward…
wikiReward Scaling
…Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…
wikiHuber Loss
…Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…
wikiReward Normalization
…Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…
wikiComparison Dataset
# Comparison Dataset ## Определение Датасет, содержащий тройки (prompt, ответ_A, ответ_B, метка), используемый для обучения модели вознаграждения (reward model) на…
answerКак детектировать reward hacking в RLHF?
…Как детектировать reward hacking в RLHF? ## Краткий тезис **[[Вики/reward hacking\|Reward hacking]]** — это ситуация, когда [[Вики/model\|модель]], обучаемая…
answerЧто такое calibration в контексте reward model для RLHF?
…Что такое calibration в контексте reward model для RLHF? ## Краткий тезис **Calibration** (калибровка) в контексте reward model для RLHF — это…
wikireward model
# reward model ## Определение Компонент RLHF, обучаемый на ранжированных данных для оценки качества ответов. ## Где встречается - [[36. Что такое DPO (Direct…
answerКак работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)?
…Ключевые компоненты: - **[[Вики/reward model\|Reward]] [[Вики/embedding-модель\|model]]**: небольшая [[Вики/neural network\|нейросеть]], которая оценивает качество текущего ответа…
answerЧто такое RLAIF (RL from AI Feedback) и как он масштабируется?
…3. [[Вики/training\|Обучение]] [[Вики/reward model\|reward]] [[Вики/embedding-модель\|model]] На собранных парах ([[Вики/промпт агента\|промпт]], ответ…
wikiIterated Training
…Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…
wikiSoft-label
…Применяется в process reward model для более точного обучения модели вознаграждения. ## Где встречается - [[65. Реализовать process reward model|65. Реализовать…
answerКак работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?
…Основная идея: [[Вики/model\|модель]] генерирует множество вариантов ответов, оценивает их с помощью [[Вики/reward model\|reward function]] (функции награды…
wikiaccuracy предсказания winner
# accuracy предсказания winner ## Определение Доля пар ответов, в которых предсказание reward model совпало с человеческим выбором лучшего ответа. Является метрикой…
wikiBradley-Terry model
…Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…
answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?
…Замораживаем [[Вики/reward model\|reward model]]. Основную [[Вики/model\|модель]] («политику») обучаем через [[Вики/Proximal Policy Optimization\|PPO]], максимизируя ожидаемое…
answerЧто такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?
…Обучить reward model на парах (ответ, оценка вежливости). 3. Реализовать PPO loop: - Генерация ответов текущей policy. - Вычисление reward от reward…
wikirule-based reward model
# rule-based reward model ## Определение Модель награды, основанная на заданных правилах, а не на обучении; применяется, например, для оценки безопасности…
answerКак работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?
…Вместо того чтобы учить отдельную [[Вики/reward model\|reward model]], [[Вики/Direct Preference Optimization\|DPO]] выражает [[Вики/Reward\|reward]] через…
wikireward correlation
…Что такое reward correlation и как ее измерять|496. Что такое reward correlation и как ее измерять]] - [[800+ вопросов|800…
answerGRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?
…2. [[Вики/training\|Обучение]] [[Вики/reward model\|reward]] [[Вики/embedding-модель\|model]] — [[Вики/model\|модель]], предсказывающая оценку ответа. 3. RL…
wikiProximal Policy Optimization
…Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…
wikiReward score
# Reward score ## Определение Числовая оценка, выдаваемая reward model, отражающая качество ответа. ## Где встречается - [[336. Что такое KTO (Kahneman-Tversky Optimization…
answerКак обучается reward model для RLHF и как избегать reward hacking?
…Как обучается reward model для RLHF и как избегать reward hacking? ## Краткий тезис **[[Вики/reward model\|Reward]] [[Вики/embedding-модель…
wikiStep accuracy
…Реализовать process reward model|65. Реализовать process reward model]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
wikireward hacking
…Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…
answerКак работает RLHF (Reinforcement Learning from Human Feedback) технически?
…Сначала [[Вики/model\|модель]] дообучается на инструкциях ([[Вики/SFT\|SFT]]), затем обучается [[Вики/reward model\|reward model]] на парах «лучший…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать process reward model (PRM)
…Цель задачи Разработать и обучить [[Вики/Process reward model\|process reward model]] ([[Вики/Process reward model\|PRM]]) — [[Вики/model\|модель…
answerЧто такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста?
…отдельная обученная [[Вики/model\|модель]] (например, [[Вики/reward model\|Reward Model]] из [[Вики/Reinforcement Learning from Human Feedback\|RLHF]]), которая…
wikiKL penalty
…Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…
answerКак вы делаете agent с human values alignment (Constitutional AI для агентов)?
…на основе исправленных ответов обучается [[Вики/reward model\|reward model]], которая оценивает, насколько ответ соответствует конституции. Как это переносится на…
wikiHard-negative mining
…Реализовать process reward model|65. Реализовать process reward model]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
wikiStep-level supervision
…Реализовать process reward model|65. Реализовать process reward model]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
answerКак работает synthetic data для RLHF (предпочтения)?
…Обучите reward model на этих данных с помощью TRL (класс `RewardTrainer`). 6. Оцените reward model на 100 парах, размеченных вручную…
wikirule-based reward
…используемая в GRPO для задач math/code без отдельной reward model. ## Где встречается - [[328. GRPO (Group Relative Policy Optimization) vs…
wikiMath-500
…Используется для оценки process reward model и outcome reward model. ## Где встречается - [[Практика|Практика]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00…
wikiSigmoid
# Sigmoid ## Определение Сигмоида (логистическая функция) преобразует logit в вероятность [0,1]; используется в reward model, IRT и бинарной классификации. ## Где…
wikiHugging Face TRL
…Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…
wikiCalibratedClassifierCV
…Что такое calibration в контексте reward model для RLHF|507. Что такое calibration в контексте reward model для RLHF]] ## Навигация…
answerКак работает process reward model (PRM) vs outcome reward model (ORM)?
…Как работает process reward model (PRM) vs outcome reward model (ORM)? ## Краткий тезис **[[Вики/Outcome Reward Model\|Outcome Reward Model…