Поиск

  • answerЧто такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?

    …Что такое PPO (Proximal Policy Optimization) и почему он используется в RLHF? ## Краткий тезис **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики…

  • wikiPPOTrainer

    # PPOTrainer ## Определение Компонент библиотеки TRL (Transformers Reinforcement Learning) для обучения с подкреплением методом PPO, применяемый, например, в RLHF для детекции…

  • wikiadvantage estimation

    # advantage estimation ## Определение Оценка того, насколько действие лучше среднего; используется в PPO для credit assignment. ## Где встречается - [[339. Как работает…

  • wikisurrogate objective

    # surrogate objective ## Определение Целевая функция в алгоритме PPO, аппроксимирующая истинную функцию и включающая clipping для стабильного обучения. ## Где встречается - [[339…

  • wikisparse reward

    …Алгоритм PPO лучше обрабатывает такие сценарии. ## Где встречается - [[339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше…

  • wikiimportance sampling

    # importance sampling ## Определение Техника выборки по важности, используемая в алгоритмах RL (например, PPO) для оценки ожиданий с использованием данных, собранных…

  • wikishaped reward

    …Часто используется в алгоритмах вроде PPO для ускорения сходимости за счёт дополнительной информации о близости к цели. ## Где встречается - [[339…

  • wikiexploration

    # exploration ## Определение Поиск новых стратегий в алгоритмах обучения с подкреплением, например MCTS, часто стимулируется entropy bonus в PPO. ## Где встречается…

  • wikientropy bonus

    # entropy bonus ## Определение Дополнительный член в функции потерь PPO, поощряющий высокую энтропию политики агента для стимуляции исследования и предотвращения преждевременной…

  • answerКак работает RLHF (Reinforcement Learning from Human Feedback) технически?

    …Важно reward model не обновляется во время PPO, иначе награда будет «движущейся мишенью». --- ## 5. Детали реализации PPO в RLHF ### 5…

  • wikiCredit assignment

    # Credit assignment ## Определение Проблема определения вклада отдельных действий или токенов в итоговый результат, используемая в обучении с подкреплением (например, PPO

  • wikipolicy gradient

    # policy gradient ## Определение Класс алгоритмов reinforcement learning, которые обновляют политику (стратегию) напрямую через градиент награды; к ним относится PPO. ## Где…

  • wikiSample Efficiency

    # Sample Efficiency ## Определение Способность алгоритма обучаться на ограниченном количестве данных; PPO эффективнее ReST в этом аспекте. ## Где встречается - [[334. Как…

  • wikicritic agent

    …GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO

  • wikiGeneralized Advantage Estimation

    # Generalized Advantage Estimation ## Определение Метод оценки преимущества (advantage) в алгоритмах RL (PPO, A2C), используемый с Value Head для стабильного обновления…

  • answerКак работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?

    …Что такое PPO (Proximal Policy Optimization)? [[Вики/Proximal Policy Optimization\|PPO]] — это популярный алгоритм [[Вики/Reinforcement Learning\|reinforcement learning]] для…

  • wikiValue Network

    …Применяется в алгоритмах RL, таких как PPO, для оценки преимущества действия. ## Где встречается - [[334. Как вы делаете online RL для…

  • wikiClip ε

    # Clip ε ## Определение Гиперпараметр PPO (обычно 0.2), ограничивающий отношение вероятностей новой и старой политики для стабильности обучения. ## Где встречается…

  • wikiDeepSeek-R1

    …GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO

  • wikiPaLM 2

    …Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…

  • answerGRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?

    …Сравнение PPO и GRPO (таблица) | Характеристика | PPO | GRPO | |----------------|-----|------| | Необходимость reward model | Да (отдельная обученная модель) | Нет (можно rule-based или…

  • wikimath reasoning

    …Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…

  • wikirule-based reward

    …GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO

  • wikiPolicy

    # Policy ## Определение Стратегия (нейросеть или правила), отображающая состояния в действия; используется в RL (PPO, DPO) как генератор действий, а также…

  • wikiself-training

    …Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…

  • wikiclipping

    …GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO

  • wikiself-play

    …Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…

  • wikiGRPO

    …GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO

  • answerКак работает KL penalty в RLHF и как подобрать коэффициент?

    …Как KL penalty работает на практике (в PPO) В алгоритме **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики/Proximal Policy Optimization\|Proximal…

  • answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?

    …Как работает PPO в контексте RLHF и каковы его альтернативы?\|37]] | PPO и его роль | | [[38. В чём разница между…

  • wikiPass@k

    …Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…

  • wikiDistribution Collapse

    …Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…

  • answerКак вы делаете online RL для агентов (self-improvement loops)?

    …Обучить с помощью PPO из Stable-Baselines3: `PPO('MlpPolicy', env, verbose=1).learn(total_timesteps=10000)`. 5. Оценить: построить график…

  • wikiMath

    …Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…

  • answerКак вы проверяете, что RLHF не сломал базовые способности модели?

    …Периодическое тестирование во время RLHF Каждые N шагов (например, 100 шагов [[Вики/Proximal Policy Optimization\|PPO]]) повторяем [[Вики/Evaluation\|evaluation…

  • answerКак работает process reward model (PRM) vs outcome reward model (ORM)?

    …Применение в RL (PPO, GRPO) В классическом **PPO (Proximal Policy Optimization)** награда от reward model применяется ко всей траектории (последовательности…

  • wikiOn-policy

    # On-policy ## Определение Парадигма обучения, при которой данные генерируются текущей политикой (LLM) на каждой итерации PPO. ## Где встречается - [[326. Как…

  • wikiRL4LMs

    # RL4LMs ## Определение Библиотека для обучения с подкреплением языковых моделей, поддерживающая алгоритмы PPO и A2C. ## Где встречается - [[334. Как вы делаете…

  • wikiValue head

    …Используется в алгоритмах RL (например, PPO) для вычисления advantage. ## Где встречается - [[326. Как работает RLHF (Reinforcement Learning from Human Feedback…

  • answerКак обучается reward model для RLHF и как избегать reward hacking?

    …Реализация в PPO ```python # Внутри цикла PPO log_probs = policy.forward(input_ids) ref_log_probs = ref_policy.forward(input…

  • wikiProximal Policy Optimization

    …GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO

  • wikiAdaptive KL penalty

    # Adaptive KL penalty ## Определение Механизм динамической подстройки коэффициента β в PPO для контроля KL-дивергенции между текущей и референтной политикой…

  • wikicollapse

    …от эталонной политики, что предотвращается в RLHF с помощью PPO. ## Где встречается - [[335. Как работает Direct Preference Optimization (DPO) в…

  • wikiIterated Training

    …обучение модели вознаграждения, обучение политики с PPO, сбор новых предпочтений, дообучение модели вознаграждения. Применяется для предотвращения reward hacking. ## Где встречается…

  • wikiCompliance

    …Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…

  • answerЧто такое KL divergence и где она применяется в LLM (RLHF, distillation)?

    …Оптимизация [[Вики/Policy\|policy]] ([[Вики/GPT-4o\|LLM]]) с помощью [[Вики/Proximal Policy Optimization\|PPO]] с [[Вики/KL penalty\|KL…

  • wikiHugging Face TRL

    # Hugging Face TRL ## Определение Библиотека от Hugging Face для reinforcement learning fine-tuning моделей, включающая реализации PPO, DPO, GRPO. Используется…

  • wikiGSM8K

    …Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…

  • answerКак детектировать reward hacking в RLHF?

    …Ваш ответ: …» | | Избыточная оптимизация (overoptimisation) | Чем больше шагов PPO, тем сильнее модель отклоняется от reference политики, подстраиваясь под RM | Reward…

  • wikiReinforcement Learning

    …для выравнивания LLM и оптимизации поведения агентов (например, с PPO). ## Где встречается - [[485. Как вы дебажите training instability (loss spikes…