Поиск

wikiProximal Policy Optimization
# Proximal Policy Optimization ## Определение Алгоритм обучения с подкреплением с клиппингом, используемый в RLHF для стабильного обучения. ## Где встречается - [[36. Что…
wikiRLAIF
…Что такое RLAIF (RL from AI Feedback) и как он масштабируется|330. Что такое RLAIF (RL from AI Feedback) и…
wikiTruthfulQA
…Что такое RLAIF (RL from AI Feedback) и как он масштабируется|330. Что такое RLAIF (RL from AI Feedback) и…
wikiConstrained RL
# Constrained RL ## Определение RL со штрафами за опасные действия для обеспечения безопасности. ## Где встречается - [[334. Как вы делаете online RL…
wikiHugging Face TRL
…Что такое RLAIF (RL from AI Feedback) и как он масштабируется|330. Что такое RLAIF (RL from AI Feedback) и…
wikiAnthropic HH-RLHF
# Anthropic HH-RLHF ## Определение Датасет парных предпочтений от Anthropic, используемый для RLHF и оценки выравнивания модели. ## Где встречается - [[331. Как…
wikiDirect Preference Optimization
# Direct Preference Optimization ## Определение Метод оптимизации на основе парных предпочтений, альтернатива RLHF, проще и стабильнее, использует implicit reward. ## Где встречается…
wikireward hacking
…Как работает RLHF (Reinforcement Learning from Human Feedback) технически|326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически]] - [[329…
answerЧто такое RLAIF (RL from AI Feedback) и как он масштабируется?
…Что такое RLAIF (RL from AI Feedback) и как он масштабируется? ## Краткий тезис **[[Вики/RLAIF\|RLAIF]] ([[Вики/RLAIF\|Reinforcement Learning…
wikireward model
# reward model ## Определение Компонент RLHF, обучаемый на ранжированных данных для оценки качества ответов. ## Где встречается - [[36. Что такое DPO (Direct…
wikiRL4LMs
…Как вы делаете online RL для агентов (self-improvement loops)|334. Как вы делаете online RL для агентов (self-improvement…
wikiBBQ
# BBQ ## Определение Бенчмарк для измерения стереотипов и предвзятости в языковых моделях, используется для оценки bias amplification после RLAIF. ## Где встречается…
wikiiterated RLHF
# iterated RLHF ## Определение Процесс повторного сбора человеческих предпочтений и дообучения модели вознаграждения после каждого раунда RLHF для улучшения политики. ## Где…
wikiRLHF Evaluation Suite
# RLHF Evaluation Suite ## Определение Комплекс метрик от OpenAI для оценки качества выравнивания (alignment) моделей, обученных с помощью RLHF. ## Где встречается…
wikiOffline RL
# Offline RL ## Определение Подход обучения с подкреплением, при котором агент обучается исключительно на статическом датасете, не взаимодействуя с окружением. ## Где…
wikiKL penalty
# KL penalty ## Определение Штраф в RLHF, препятствующий слишком сильному отклонению новой политики от reference политики. Вычисляется как KL-дивергенция между…
wikiproxy reward
# proxy reward ## Определение Аппроксимация истинной цели, которую оптимизирует модель; причина reward hacking в RLHF. ## Где встречается - [[344. Что такое reward…
wikiSFT
# SFT ## Определение Supervised Fine-Tuning — метод дообучения модели на размеченных парах инструкция-ответ; первый этап RLHF для адаптации стиля и…
wikiReinforcement Learning from Human Feedback
…Что такое RLAIF (RL from AI Feedback) и как он масштабируется|330. Что такое RLAIF (RL from AI Feedback) и…
wikiModel-based RL
# Model-based RL ## Определение Подход обучения с подкреплением, где агент строит внутреннюю модель окружения для более эффективного использования данных. ## Где…
wikipreference data collection
…Как работает synthetic data для RLHF (предпочтения)]] - [[800+ вопросов|800+ вопросов]] - [[270. Настроить RLAIF для генерации предпочтений|270. Настроить RLAIF…
wikiConstitutional AI
# Constitutional AI ## Определение Подход, при котором LLM генерирует сравнения на основе заданных принципов (конституции), что лежит в основе RLAIF. ## Где…
wikiKL divergence
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
wikisafety benchmarks
…Что такое RLAIF (RL from AI Feedback) и как он масштабируется|330. Что такое RLAIF (RL from AI Feedback) и…
wikiGeneralized Advantage Estimation
# Generalized Advantage Estimation ## Определение Метод оценки преимущества (advantage) в алгоритмах RL (PPO, A2C), используемый с Value Head для стабильного обновления…
answerКак вы делаете online RL для агентов (self-improvement loops)?
…Можно комбинировать с RL для выбора лучшей рефлексии. --- ## 7. Инструменты и фреймворки | Инструмент | Назначение | Особенности | |------------|------------|-------------| | [[Вики/RL4LMs\|RL4LMs]] | RL для…
wikiself-play
…Что такое RLAIF (RL from AI Feedback) и как он масштабируется|330. Что такое RLAIF (RL from AI Feedback) и…
wikionline reinforcement learning
…Как вы делаете online RL для агентов (self-improvement loops)|334. Как вы делаете online RL для агентов (self-improvement…
wikiGRPO
# GRPO ## Определение Group Relative Policy Optimization — метод оптимизации политики в RL для alignment LLM, не требующий отдельной модели вознаграждения, основанный…
answerКак вы проверяете, что RLHF не сломал базовые способности модели?
…Как вы проверяете, что RLHF не сломал базовые способности модели? ## Краткий тезис **[[Вики/Reinforcement Learning from Human Feedback\|RLHF]] ([[Вики…
answerКак вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)?
…Что такое RLAIF (RL from AI Feedback) и как он масштабируется\|330]] | Как вы оцениваете reward model в RLHF? | | [[332…
wikiensemble RM
…Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…
wikipairwise ranking loss
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
wikiRL update
# RL update ## Определение Шаг оптимизации, при котором параметры политики агента корректируются на основе собранных траекторий в обучении с подкреплением. ## Где…
wikiensemble reward models
…Что такое reward hacking в RLHF и как его детектировать|344. Что такое reward hacking в RLHF и как его…
wikiPPOTrainer
# PPOTrainer ## Определение Компонент библиотеки TRL (Transformers Reinforcement Learning) для обучения с подкреплением методом PPO, применяемый, например, в RLHF для детекции…
wikiStable-Baselines3
# Stable-Baselines3 ## Определение Фреймворк классического RL, может быть адаптирован для агентов. ## Где встречается - [[334. Как вы делаете online RL для…
wikisycophancy
# sycophancy ## Определение Тип reward hacking в RLHF, когда модель льстит пользователю и соглашается с любым утверждением, вместо объективного ответа. ## Где…
wikiAdvantage
# Advantage ## Определение Оценка того, насколько действие лучше среднего при данном состоянии, используется в RL для credit assignment. ## Где встречается - [[334…
wikiRLlib
# RLlib ## Определение Библиотека для обучения с подкреплением на базе Ray, применяемая для обучения политики агента с траекторным вознаграждением. ## Где встречается…
wikiSFT Model
# SFT Model ## Определение Модель после supervised fine-tuning, используемая как reference policy в RLHF. ## Где встречается - [[329. Как обучается reward…
wikiGPT-2 small
# GPT-2 small ## Определение Малая версия модели GPT-2, используемая в пет-проектах для симуляции reward hacking в RLHF. ## Где…
wikiValue head
…Используется в алгоритмах RL (например, PPO) для вычисления advantage. ## Где встречается - [[326. Как работает RLHF (Reinforcement Learning from Human Feedback…
wikiTarget KL
# Target KL ## Определение Целевое значение KL divergence для adaptive KL penalty в RLHF, обычно 0.01–0.1 на токен…
wikiIntrinsic motivation
# Intrinsic motivation ## Определение Бонус за исследование, используемый для стимулирования агента к более активному изучению среды в online RL. ## Где встречается…
wikiScale AI
# Scale AI ## Определение Платформа для сбора и разметки данных, используемая в том числе для сбора предпочтений при RLHF. ## Где встречается…
wikiType-token ratio
…Как детектировать reward hacking в RLHF|873. Как детектировать reward hacking в RLHF]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiLabelbox
# Labelbox ## Определение Платформа для разметки данных, поддерживающая сбор предпочтений и оценок (например, для RLHF). Предоставляет инструменты для организации процесса разметки…
wikiKendall's τ
…Применяется для оценки качества reward model в RLHF вне стандартных бенчмарков. ## Где встречается - [[331. Как вы измеряете quality RLHF модели…
wikilength exploitation
# length exploitation ## Определение Тип reward hacking в RLHF, при котором модель генерирует чрезмерно длинные ответы, чтобы искусственно увеличить reward, так…