Поиск

wikiProximal Policy Optimization
# Proximal Policy Optimization ## Определение Алгоритм обучения с подкреплением с клиппингом, используемый в RLHF для стабильного обучения. ## Где встречается - [[36. Что…
wikiAnthropic HH-RLHF
# Anthropic HH-RLHF ## Определение Датасет парных предпочтений от Anthropic, используемый для RLHF и оценки выравнивания модели. ## Где встречается - [[331. Как…
wikireward hacking
…Как работает RLHF (Reinforcement Learning from Human Feedback) технически|326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически]] - [[329…
wikiiterated RLHF
# iterated RLHF ## Определение Процесс повторного сбора человеческих предпочтений и дообучения модели вознаграждения после каждого раунда RLHF для улучшения политики. ## Где…
wikiRLHF Evaluation Suite
# RLHF Evaluation Suite ## Определение Комплекс метрик от OpenAI для оценки качества выравнивания (alignment) моделей, обученных с помощью RLHF. ## Где встречается…
wikiKL penalty
# KL penalty ## Определение Штраф в RLHF, препятствующий слишком сильному отклонению новой политики от reference политики. Вычисляется как KL-дивергенция между…
wikiHugging Face TRL
…Как работает RLHF (Reinforcement Learning from Human Feedback) технически|326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически]] - [[328…
wikiDirect Preference Optimization
# Direct Preference Optimization ## Определение Метод оптимизации на основе парных предпочтений, альтернатива RLHF, проще и стабильнее, использует implicit reward. ## Где встречается…
wikiproxy reward
# proxy reward ## Определение Аппроксимация истинной цели, которую оптимизирует модель; причина reward hacking в RLHF. ## Где встречается - [[344. Что такое reward…
wikiSFT
# SFT ## Определение Supervised Fine-Tuning — метод дообучения модели на размеченных парах инструкция-ответ; первый этап RLHF для адаптации стиля и…
wikireward model
# reward model ## Определение Компонент RLHF, обучаемый на ранжированных данных для оценки качества ответов. ## Где встречается - [[36. Что такое DPO (Direct…
wikiTruthfulQA
…Как вы проверяете, что RLHF не сломал базовые способности модели|337. Как вы проверяете, что RLHF не сломал базовые способности…
wikiKL divergence
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
wikiReinforcement Learning from Human Feedback
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
answerКак вы проверяете, что RLHF не сломал базовые способности модели?
…Как вы проверяете, что RLHF не сломал базовые способности модели? ## Краткий тезис **[[Вики/Reinforcement Learning from Human Feedback\|RLHF]] ([[Вики…
wikipreference data collection
…Как работает synthetic data для RLHF (предпочтения)|686. Как работает synthetic data для RLHF (предпочтения)]] - [[800+ вопросов|800+ вопросов]] - [[270…
wikiensemble RM
…Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…
wikipairwise ranking loss
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
wikiensemble reward models
…Что такое reward hacking в RLHF и как его детектировать|344. Что такое reward hacking в RLHF и как его…
wikiPPOTrainer
# PPOTrainer ## Определение Компонент библиотеки TRL (Transformers Reinforcement Learning) для обучения с подкреплением методом PPO, применяемый, например, в RLHF для детекции…
wikisycophancy
# sycophancy ## Определение Тип reward hacking в RLHF, когда модель льстит пользователю и соглашается с любым утверждением, вместо объективного ответа. ## Где…
wikiSFT Model
# SFT Model ## Определение Модель после supervised fine-tuning, используемая как reference policy в RLHF. ## Где встречается - [[329. Как обучается reward…
wikiGPT-2 small
# GPT-2 small ## Определение Малая версия модели GPT-2, используемая в пет-проектах для симуляции reward hacking в RLHF. ## Где…
wikiTarget KL
# Target KL ## Определение Целевое значение KL divergence для adaptive KL penalty в RLHF, обычно 0.01–0.1 на токен…
wikiScale AI
# Scale AI ## Определение Платформа для сбора и разметки данных, используемая в том числе для сбора предпочтений при RLHF. ## Где встречается…
wikiGRPO
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
answerКак вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)?
…Инструменты: - Python, Hugging Face Transformers, TRL (для RLHF). - Датасет: Anthropic HH-RLHF (человеческие предпочтения). - Judge: GPT-4 (через API) или…
wikiType-token ratio
…Как детектировать reward hacking в RLHF|873. Как детектировать reward hacking в RLHF]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiLabelbox
# Labelbox ## Определение Платформа для разметки данных, поддерживающая сбор предпочтений и оценок (например, для RLHF). Предоставляет инструменты для организации процесса разметки…
wikiKendall's τ
…Применяется для оценки качества reward model в RLHF вне стандартных бенчмарков. ## Где встречается - [[331. Как вы измеряете quality RLHF модели…
wikilength exploitation
# length exploitation ## Определение Тип reward hacking в RLHF, при котором модель генерирует чрезмерно длинные ответы, чтобы искусственно увеличить reward, так…
wikiAmazon Mechanical Turk
…Используется для сбора предпочтений при RLHF-оценке. ## Где встречается - [[138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она…
wikiChain-of-Thought критика
…Применяется в синтетических данных для RLHF. ## Где встречается - [[686. Как работает synthetic data для RLHF (предпочтения)|686. Как работает synthetic…
wikidownstream metrics
…Что такое reward hacking в RLHF и как его детектировать|489. Что такое reward hacking в RLHF и как его…
wikialignment tax
# alignment tax ## Определение Снижение производительности или качества ответов модели в результате применения методов выравнивания (alignment), таких как RLHF или adversarial…
wikidata mixing
# data mixing ## Определение Стратегия перемешивания данных из разных источников (RLHF, SFT, книги, веб, код) в батчах для предотвращения забывания и…
wikiBradley-Terry model
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF]] - [[329. Как обучается reward model для RLHF и как…
wikiOpenAI Evals
…Что такое reward hacking в RLHF и как его детектировать|344. Что такое reward hacking в RLHF и как его…
wikiGoodhart's law
…Что такое reward hacking в RLHF и как его детектировать|344. Что такое reward hacking в RLHF и как его…
wikiText repetition
…Что такое reward hacking в RLHF и как его детектировать|344. Что такое reward hacking в RLHF и как его…
wikiConstitutional AI
…Что такое Constitutional AI и как RLHF связан с ним|340. Что такое Constitutional AI и как RLHF связан с…
wikiAlpaca
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?
…RLHF (Reinforcement Learning from Human Feedback) [[Вики/Reinforcement Learning from Human Feedback\|RLHF]] — это техника дообучения [[Вики/LLM\|LLM]], при…
wikiGPT-2
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
wikiKrippendorff's Alpha
…Как работает RLHF (Reinforcement Learning from Human Feedback) технически|326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически]] - [[492…
answerЧто такое Constitutional AI и как RLHF связан с ним?
…Как RLHF связан с Constitutional AI: сравнение | Аспект | Pure RLHF | Constitutional AI + RLHF | |--------|-----------|--------------------------| | Источник правил | Только человеческие предпочтения | Конституция + человеческие…
wikiConstitution
…Что такое Constitutional AI и как RLHF связан с ним|340. Что такое Constitutional AI и как RLHF связан с…
wikiadversarial training
…Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…
wikiIdentity Preference Optimization
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikiOn-policy
…Как работает RLHF (Reinforcement Learning from Human Feedback) технически|326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически]] ## Навигация…