Поиск

  • answerЧто такое reward hacking в RLHF и как его детектировать?

    …Это происходит из-за несовершенства [[Вики/reward model\|reward]] [[Вики/model\|model]]: [[Вики/model\|модель]] учится «обманывать» её, а не…

  • answerЧто такое reward correlation и как ее измерять?

    Reward Model (модель вознаграждения) **[[Вики/reward model\|Reward]] [[Вики/model\|model]]** — это [[Вики/neural network\|нейросеть]] (обычно на базе [[Вики…

  • wikiensemble RM

    # ensemble RM ## Определение Сокращение от ensemble reward models; подход, использующий несколько reward моделей с усреднением или минимумом их оценок для…

  • wikiensemble reward models

    # ensemble reward models ## Определение Метод, при котором несколько reward моделей обучаются и их выходы усредняются или комбинируются для снижения риска…

  • answerЧто такое reward hacking в RLHF и как его детектировать?

    …Почему это происходит - [[Вики/reward model\|Reward model]] — это приближение, она не идеальна. - [[Вики/model\|Модель]] может найти «дыры»: например…

  • wikiProcess reward model

    # Process reward model ## Определение Модель, оценивающая каждый шаг агента (или рассуждения), а не только финальный ответ; используется для детальной обратной…

  • answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?

    …набор троек `([[Вики/промпт агента\|prompt]], chosen_response, rejected_response)`. ### 3.2 Обучение reward model - [[Вики/reward model\|Reward model

  • answerКак работает KL penalty в RLHF и как подобрать коэффициент?

    …Её веса не обновляются, используется как якорь. **[[Вики/reward model\|Reward model]]** — [[Вики/model\|модель]], обученная предсказывать оценку ([[Вики/Reward

  • wikiCalibration RM

    # Calibration RM ## Определение Обучение reward model предсказывать калиброванные вероятности, например через Platt scaling, для уменьшения reward hacking. ## Где встречается - [[329…

  • wikiOutcome Reward Model

    # Outcome Reward Model ## Определение Модель, оценивающая только финальный ответ (outcome) в RL, в отличие от Process Reward Model, оценивающей каждый…

  • wikiSFT Model

    # SFT Model ## Определение Модель после supervised fine-tuning, используемая как reference policy в RLHF. ## Где встречается - [[329. Как обучается reward

  • wikiReward Scaling

    …Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…

  • wikiHuber Loss

    …Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…

  • wikiReward Normalization

    …Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…

  • wikiComparison Dataset

    # Comparison Dataset ## Определение Датасет, содержащий тройки (prompt, ответ_A, ответ_B, метка), используемый для обучения модели вознаграждения (reward model) на…

  • answerКак детектировать reward hacking в RLHF?

    …Как детектировать reward hacking в RLHF? ## Краткий тезис **[[Вики/reward hacking\|Reward hacking]]** — это ситуация, когда [[Вики/model\|модель]], обучаемая…

  • answerЧто такое calibration в контексте reward model для RLHF?

    …Что такое calibration в контексте reward model для RLHF? ## Краткий тезис **Calibration** (калибровка) в контексте reward model для RLHF — это…

  • wikireward model

    # reward model ## Определение Компонент RLHF, обучаемый на ранжированных данных для оценки качества ответов. ## Где встречается - [[36. Что такое DPO (Direct…

  • answerКак работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)?

    …Ключевые компоненты: - **[[Вики/reward model\|Reward]] [[Вики/embedding-модель\|model]]**: небольшая [[Вики/neural network\|нейросеть]], которая оценивает качество текущего ответа…

  • answerЧто такое RLAIF (RL from AI Feedback) и как он масштабируется?

    …3. [[Вики/training\|Обучение]] [[Вики/reward model\|reward]] [[Вики/embedding-модель\|model]] На собранных парах ([[Вики/промпт агента\|промпт]], ответ…

  • wikiIterated Training

    …Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…

  • wikiSoft-label

    …Применяется в process reward model для более точного обучения модели вознаграждения. ## Где встречается - [[65. Реализовать process reward model|65. Реализовать…

  • answerКак работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?

    …Основная идея: [[Вики/model\|модель]] генерирует множество вариантов ответов, оценивает их с помощью [[Вики/reward model\|reward function]] (функции награды…

  • wikiaccuracy предсказания winner

    # accuracy предсказания winner ## Определение Доля пар ответов, в которых предсказание reward model совпало с человеческим выбором лучшего ответа. Является метрикой…

  • wikiBradley-Terry model

    …Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…

  • answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?

    …Замораживаем [[Вики/reward model\|reward model]]. Основную [[Вики/model\|модель]] («политику») обучаем через [[Вики/Proximal Policy Optimization\|PPO]], максимизируя ожидаемое…

  • answerЧто такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?

    …Обучить reward model на парах (ответ, оценка вежливости). 3. Реализовать PPO loop: - Генерация ответов текущей policy. - Вычисление reward от reward

  • wikirule-based reward model

    # rule-based reward model ## Определение Модель награды, основанная на заданных правилах, а не на обучении; применяется, например, для оценки безопасности…

  • answerКак работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?

    …Вместо того чтобы учить отдельную [[Вики/reward model\|reward model]], [[Вики/Direct Preference Optimization\|DPO]] выражает [[Вики/Reward\|reward]] через…

  • wikireward correlation

    …Что такое reward correlation и как ее измерять|496. Что такое reward correlation и как ее измерять]] - [[800+ вопросов|800…

  • answerGRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?

    …2. [[Вики/training\|Обучение]] [[Вики/reward model\|reward]] [[Вики/embedding-модель\|model]] — [[Вики/model\|модель]], предсказывающая оценку ответа. 3. RL…

  • wikiProximal Policy Optimization

    …Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…

  • wikiReward score

    # Reward score ## Определение Числовая оценка, выдаваемая reward model, отражающая качество ответа. ## Где встречается - [[336. Что такое KTO (Kahneman-Tversky Optimization…

  • answerКак обучается reward model для RLHF и как избегать reward hacking?

    …Как обучается reward model для RLHF и как избегать reward hacking? ## Краткий тезис **[[Вики/reward model\|Reward]] [[Вики/embedding-модель…

  • wikiStep accuracy

    …Реализовать process reward model|65. Реализовать process reward model]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikireward hacking

    …Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…

  • answerКак работает RLHF (Reinforcement Learning from Human Feedback) технически?

    …Сначала [[Вики/model\|модель]] дообучается на инструкциях ([[Вики/SFT\|SFT]]), затем обучается [[Вики/reward model\|reward model]] на парах «лучший…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать process reward model (PRM)

    …Цель задачи Разработать и обучить [[Вики/Process reward model\|process reward model]] ([[Вики/Process reward model\|PRM]]) — [[Вики/model\|модель…

  • answerЧто такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста?

    …отдельная обученная [[Вики/model\|модель]] (например, [[Вики/reward model\|Reward Model]] из [[Вики/Reinforcement Learning from Human Feedback\|RLHF]]), которая…

  • wikiKL penalty

    …Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…

  • answerКак вы делаете agent с human values alignment (Constitutional AI для агентов)?

    …на основе исправленных ответов обучается [[Вики/reward model\|reward model]], которая оценивает, насколько ответ соответствует конституции. Как это переносится на…

  • wikiHard-negative mining

    …Реализовать process reward model|65. Реализовать process reward model]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiStep-level supervision

    …Реализовать process reward model|65. Реализовать process reward model]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • answerКак работает synthetic data для RLHF (предпочтения)?

    …Обучите reward model на этих данных с помощью TRL (класс `RewardTrainer`). 6. Оцените reward model на 100 парах, размеченных вручную…

  • wikirule-based reward

    …используемая в GRPO для задач math/code без отдельной reward model. ## Где встречается - [[328. GRPO (Group Relative Policy Optimization) vs…

  • wikiMath-500

    …Используется для оценки process reward model и outcome reward model. ## Где встречается - [[Практика|Практика]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00…

  • wikiSigmoid

    # Sigmoid ## Определение Сигмоида (логистическая функция) преобразует logit в вероятность [0,1]; используется в reward model, IRT и бинарной классификации. ## Где…

  • wikiHugging Face TRL

    …Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…

  • wikiCalibratedClassifierCV

    …Что такое calibration в контексте reward model для RLHF|507. Что такое calibration в контексте reward model для RLHF]] ## Навигация…

  • answerКак работает process reward model (PRM) vs outcome reward model (ORM)?

    …Как работает process reward model (PRM) vs outcome reward model (ORM)? ## Краткий тезис **[[Вики/Outcome Reward Model\|Outcome Reward Model