Поиск
- answerЧто такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?
…Что такое PPO (Proximal Policy Optimization) и почему он используется в RLHF? ## Краткий тезис **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики…
- wikiPPOTrainer
# PPOTrainer ## Определение Компонент библиотеки TRL (Transformers Reinforcement Learning) для обучения с подкреплением методом PPO, применяемый, например, в RLHF для детекции…
- wikiadvantage estimation
# advantage estimation ## Определение Оценка того, насколько действие лучше среднего; используется в PPO для credit assignment. ## Где встречается - [[339. Как работает…
- wikisurrogate objective
# surrogate objective ## Определение Целевая функция в алгоритме PPO, аппроксимирующая истинную функцию и включающая clipping для стабильного обучения. ## Где встречается - [[339…
- wikisparse reward
…Алгоритм PPO лучше обрабатывает такие сценарии. ## Где встречается - [[339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше…
- wikiimportance sampling
# importance sampling ## Определение Техника выборки по важности, используемая в алгоритмах RL (например, PPO) для оценки ожиданий с использованием данных, собранных…
- wikishaped reward
…Часто используется в алгоритмах вроде PPO для ускорения сходимости за счёт дополнительной информации о близости к цели. ## Где встречается - [[339…
- wikiexploration
# exploration ## Определение Поиск новых стратегий в алгоритмах обучения с подкреплением, например MCTS, часто стимулируется entropy bonus в PPO. ## Где встречается…
- wikientropy bonus
# entropy bonus ## Определение Дополнительный член в функции потерь PPO, поощряющий высокую энтропию политики агента для стимуляции исследования и предотвращения преждевременной…
- answerКак работает RLHF (Reinforcement Learning from Human Feedback) технически?
…Важно reward model не обновляется во время PPO, иначе награда будет «движущейся мишенью». --- ## 5. Детали реализации PPO в RLHF ### 5…
- wikiCredit assignment
# Credit assignment ## Определение Проблема определения вклада отдельных действий или токенов в итоговый результат, используемая в обучении с подкреплением (например, PPO…
- wikipolicy gradient
# policy gradient ## Определение Класс алгоритмов reinforcement learning, которые обновляют политику (стратегию) напрямую через градиент награды; к ним относится PPO. ## Где…
- wikiSample Efficiency
# Sample Efficiency ## Определение Способность алгоритма обучаться на ограниченном количестве данных; PPO эффективнее ReST в этом аспекте. ## Где встречается - [[334. Как…
- wikicritic agent
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
- wikiGeneralized Advantage Estimation
# Generalized Advantage Estimation ## Определение Метод оценки преимущества (advantage) в алгоритмах RL (PPO, A2C), используемый с Value Head для стабильного обновления…
- answerКак работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?
…Что такое PPO (Proximal Policy Optimization)? [[Вики/Proximal Policy Optimization\|PPO]] — это популярный алгоритм [[Вики/Reinforcement Learning\|reinforcement learning]] для…
- wikiValue Network
…Применяется в алгоритмах RL, таких как PPO, для оценки преимущества действия. ## Где встречается - [[334. Как вы делаете online RL для…
- wikiClip ε
# Clip ε ## Определение Гиперпараметр PPO (обычно 0.2), ограничивающий отношение вероятностей новой и старой политики для стабильности обучения. ## Где встречается…
- wikiDeepSeek-R1
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
- wikiPaLM 2
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
- answerGRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?
…Сравнение PPO и GRPO (таблица) | Характеристика | PPO | GRPO | |----------------|-----|------| | Необходимость reward model | Да (отдельная обученная модель) | Нет (можно rule-based или…
- wikimath reasoning
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
- wikirule-based reward
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
- wikiPolicy
# Policy ## Определение Стратегия (нейросеть или правила), отображающая состояния в действия; используется в RL (PPO, DPO) как генератор действий, а также…
- wikiself-training
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
- wikiclipping
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
- wikiself-play
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
- wikiGRPO
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
- answerКак работает KL penalty в RLHF и как подобрать коэффициент?
…Как KL penalty работает на практике (в PPO) В алгоритме **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики/Proximal Policy Optimization\|Proximal…
- answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?
…Как работает PPO в контексте RLHF и каковы его альтернативы?\|37]] | PPO и его роль | | [[38. В чём разница между…
- wikiPass@k
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
- wikiDistribution Collapse
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
- answerКак вы делаете online RL для агентов (self-improvement loops)?
…Обучить с помощью PPO из Stable-Baselines3: `PPO('MlpPolicy', env, verbose=1).learn(total_timesteps=10000)`. 5. Оценить: построить график…
- wikiMath
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
- answerКак вы проверяете, что RLHF не сломал базовые способности модели?
…Периодическое тестирование во время RLHF Каждые N шагов (например, 100 шагов [[Вики/Proximal Policy Optimization\|PPO]]) повторяем [[Вики/Evaluation\|evaluation…
- answerКак работает process reward model (PRM) vs outcome reward model (ORM)?
…Применение в RL (PPO, GRPO) В классическом **PPO (Proximal Policy Optimization)** награда от reward model применяется ко всей траектории (последовательности…
- wikiOn-policy
# On-policy ## Определение Парадигма обучения, при которой данные генерируются текущей политикой (LLM) на каждой итерации PPO. ## Где встречается - [[326. Как…
- wikiRL4LMs
# RL4LMs ## Определение Библиотека для обучения с подкреплением языковых моделей, поддерживающая алгоритмы PPO и A2C. ## Где встречается - [[334. Как вы делаете…
- wikiValue head
…Используется в алгоритмах RL (например, PPO) для вычисления advantage. ## Где встречается - [[326. Как работает RLHF (Reinforcement Learning from Human Feedback…
- answerКак обучается reward model для RLHF и как избегать reward hacking?
…Реализация в PPO ```python # Внутри цикла PPO log_probs = policy.forward(input_ids) ref_log_probs = ref_policy.forward(input…
- wikiProximal Policy Optimization
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
- wikiAdaptive KL penalty
# Adaptive KL penalty ## Определение Механизм динамической подстройки коэффициента β в PPO для контроля KL-дивергенции между текущей и референтной политикой…
- wikicollapse
…от эталонной политики, что предотвращается в RLHF с помощью PPO. ## Где встречается - [[335. Как работает Direct Preference Optimization (DPO) в…
- wikiIterated Training
…обучение модели вознаграждения, обучение политики с PPO, сбор новых предпочтений, дообучение модели вознаграждения. Применяется для предотвращения reward hacking. ## Где встречается…
- wikiCompliance
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
- answerЧто такое KL divergence и где она применяется в LLM (RLHF, distillation)?
…Оптимизация [[Вики/Policy\|policy]] ([[Вики/GPT-4o\|LLM]]) с помощью [[Вики/Proximal Policy Optimization\|PPO]] с [[Вики/KL penalty\|KL…
- wikiHugging Face TRL
# Hugging Face TRL ## Определение Библиотека от Hugging Face для reinforcement learning fine-tuning моделей, включающая реализации PPO, DPO, GRPO. Используется…
- wikiGSM8K
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
- answerКак детектировать reward hacking в RLHF?
…Ваш ответ: …» | | Избыточная оптимизация (overoptimisation) | Чем больше шагов PPO, тем сильнее модель отклоняется от reference политики, подстраиваясь под RM | Reward…
- wikiReinforcement Learning
…для выравнивания LLM и оптимизации поведения агентов (например, с PPO). ## Где встречается - [[485. Как вы дебажите training instability (loss spikes…