Поиск

answerЧто такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?
…Что такое PPO (Proximal Policy Optimization) и почему он используется в RLHF? ## Краткий тезис **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики…
wikiPPOTrainer
# PPOTrainer ## Определение Компонент библиотеки TRL (Transformers Reinforcement Learning) для обучения с подкреплением методом PPO, применяемый, например, в RLHF для детекции…
wikiadvantage estimation
# advantage estimation ## Определение Оценка того, насколько действие лучше среднего; используется в PPO для credit assignment. ## Где встречается - [[339. Как работает…
wikisurrogate objective
# surrogate objective ## Определение Целевая функция в алгоритме PPO, аппроксимирующая истинную функцию и включающая clipping для стабильного обучения. ## Где встречается - [[339…
wikisparse reward
…Алгоритм PPO лучше обрабатывает такие сценарии. ## Где встречается - [[339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше…
wikiimportance sampling
# importance sampling ## Определение Техника выборки по важности, используемая в алгоритмах RL (например, PPO) для оценки ожиданий с использованием данных, собранных…
wikishaped reward
…Часто используется в алгоритмах вроде PPO для ускорения сходимости за счёт дополнительной информации о близости к цели. ## Где встречается - [[339…
wikiexploration
# exploration ## Определение Поиск новых стратегий в алгоритмах обучения с подкреплением, например MCTS, часто стимулируется entropy bonus в PPO. ## Где встречается…
wikientropy bonus
# entropy bonus ## Определение Дополнительный член в функции потерь PPO, поощряющий высокую энтропию политики агента для стимуляции исследования и предотвращения преждевременной…
answerКак работает RLHF (Reinforcement Learning from Human Feedback) технически?
…Важно reward model не обновляется во время PPO, иначе награда будет «движущейся мишенью». --- ## 5. Детали реализации PPO в RLHF ### 5…
wikiCredit assignment
# Credit assignment ## Определение Проблема определения вклада отдельных действий или токенов в итоговый результат, используемая в обучении с подкреплением (например, PPO…
wikipolicy gradient
# policy gradient ## Определение Класс алгоритмов reinforcement learning, которые обновляют политику (стратегию) напрямую через градиент награды; к ним относится PPO. ## Где…
wikiSample Efficiency
# Sample Efficiency ## Определение Способность алгоритма обучаться на ограниченном количестве данных; PPO эффективнее ReST в этом аспекте. ## Где встречается - [[334. Как…
wikicritic agent
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
wikiGeneralized Advantage Estimation
# Generalized Advantage Estimation ## Определение Метод оценки преимущества (advantage) в алгоритмах RL (PPO, A2C), используемый с Value Head для стабильного обновления…
answerКак работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?
…Что такое PPO (Proximal Policy Optimization)? [[Вики/Proximal Policy Optimization\|PPO]] — это популярный алгоритм [[Вики/Reinforcement Learning\|reinforcement learning]] для…
wikiValue Network
…Применяется в алгоритмах RL, таких как PPO, для оценки преимущества действия. ## Где встречается - [[334. Как вы делаете online RL для…
wikiClip ε
# Clip ε ## Определение Гиперпараметр PPO (обычно 0.2), ограничивающий отношение вероятностей новой и старой политики для стабильности обучения. ## Где встречается…
wikiDeepSeek-R1
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
wikiPaLM 2
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
answerGRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?
…Сравнение PPO и GRPO (таблица) | Характеристика | PPO | GRPO | |----------------|-----|------| | Необходимость reward model | Да (отдельная обученная модель) | Нет (можно rule-based или…
wikimath reasoning
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
wikirule-based reward
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
wikiPolicy
# Policy ## Определение Стратегия (нейросеть или правила), отображающая состояния в действия; используется в RL (PPO, DPO) как генератор действий, а также…
wikiself-training
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
wikiclipping
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
wikiself-play
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
wikiGRPO
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
answerКак работает KL penalty в RLHF и как подобрать коэффициент?
…Как KL penalty работает на практике (в PPO) В алгоритме **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики/Proximal Policy Optimization\|Proximal…
answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?
…Как работает PPO в контексте RLHF и каковы его альтернативы?\|37]] | PPO и его роль | | [[38. В чём разница между…
wikiPass@k
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
wikiDistribution Collapse
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
answerКак вы делаете online RL для агентов (self-improvement loops)?
…Обучить с помощью PPO из Stable-Baselines3: `PPO('MlpPolicy', env, verbose=1).learn(total_timesteps=10000)`. 5. Оценить: построить график…
wikiMath
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
answerКак вы проверяете, что RLHF не сломал базовые способности модели?
…Периодическое тестирование во время RLHF Каждые N шагов (например, 100 шагов [[Вики/Proximal Policy Optimization\|PPO]]) повторяем [[Вики/Evaluation\|evaluation…
answerКак работает process reward model (PRM) vs outcome reward model (ORM)?
…Применение в RL (PPO, GRPO) В классическом **PPO (Proximal Policy Optimization)** награда от reward model применяется ко всей траектории (последовательности…
wikiOn-policy
# On-policy ## Определение Парадигма обучения, при которой данные генерируются текущей политикой (LLM) на каждой итерации PPO. ## Где встречается - [[326. Как…
wikiRL4LMs
# RL4LMs ## Определение Библиотека для обучения с подкреплением языковых моделей, поддерживающая алгоритмы PPO и A2C. ## Где встречается - [[334. Как вы делаете…
wikiValue head
…Используется в алгоритмах RL (например, PPO) для вычисления advantage. ## Где встречается - [[326. Как работает RLHF (Reinforcement Learning from Human Feedback…
answerКак обучается reward model для RLHF и как избегать reward hacking?
…Реализация в PPO ```python # Внутри цикла PPO log_probs = policy.forward(input_ids) ref_log_probs = ref_policy.forward(input…
wikiProximal Policy Optimization
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
wikiAdaptive KL penalty
# Adaptive KL penalty ## Определение Механизм динамической подстройки коэффициента β в PPO для контроля KL-дивергенции между текущей и референтной политикой…
wikicollapse
…от эталонной политики, что предотвращается в RLHF с помощью PPO. ## Где встречается - [[335. Как работает Direct Preference Optimization (DPO) в…
wikiIterated Training
…обучение модели вознаграждения, обучение политики с PPO, сбор новых предпочтений, дообучение модели вознаграждения. Применяется для предотвращения reward hacking. ## Где встречается…
wikiCompliance
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
answerЧто такое KL divergence и где она применяется в LLM (RLHF, distillation)?
…Оптимизация [[Вики/Policy\|policy]] ([[Вики/GPT-4o\|LLM]]) с помощью [[Вики/Proximal Policy Optimization\|PPO]] с [[Вики/KL penalty\|KL…
wikiHugging Face TRL
# Hugging Face TRL ## Определение Библиотека от Hugging Face для reinforcement learning fine-tuning моделей, включающая реализации PPO, DPO, GRPO. Используется…
wikiGSM8K
…Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO|339. Как работает алгоритм ReST (Reinforced Self-Training…
answerКак детектировать reward hacking в RLHF?
…Ваш ответ: …» | | Избыточная оптимизация (overoptimisation) | Чем больше шагов PPO, тем сильнее модель отклоняется от reference политики, подстраиваясь под RM | Reward…
wikiReinforcement Learning
…для выравнивания LLM и оптимизации поведения агентов (например, с PPO). ## Где встречается - [[485. Как вы дебажите training instability (loss spikes…