Поиск
- wikiProximal Policy Optimization
# Proximal Policy Optimization ## Определение Алгоритм обучения с подкреплением с клиппингом, используемый в RLHF для стабильного обучения. ## Где встречается - [[36. Что…
- wikiAnthropic HH-RLHF
# Anthropic HH-RLHF ## Определение Датасет парных предпочтений от Anthropic, используемый для RLHF и оценки выравнивания модели. ## Где встречается - [[331. Как…
- wikireward hacking
…Как работает RLHF (Reinforcement Learning from Human Feedback) технически|326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически]] - [[329…
- wikiiterated RLHF
# iterated RLHF ## Определение Процесс повторного сбора человеческих предпочтений и дообучения модели вознаграждения после каждого раунда RLHF для улучшения политики. ## Где…
- wikiRLHF Evaluation Suite
# RLHF Evaluation Suite ## Определение Комплекс метрик от OpenAI для оценки качества выравнивания (alignment) моделей, обученных с помощью RLHF. ## Где встречается…
- wikiKL penalty
# KL penalty ## Определение Штраф в RLHF, препятствующий слишком сильному отклонению новой политики от reference политики. Вычисляется как KL-дивергенция между…
- wikiHugging Face TRL
…Как работает RLHF (Reinforcement Learning from Human Feedback) технически|326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически]] - [[328…
- wikiDirect Preference Optimization
# Direct Preference Optimization ## Определение Метод оптимизации на основе парных предпочтений, альтернатива RLHF, проще и стабильнее, использует implicit reward. ## Где встречается…
- wikiproxy reward
# proxy reward ## Определение Аппроксимация истинной цели, которую оптимизирует модель; причина reward hacking в RLHF. ## Где встречается - [[344. Что такое reward…
- wikiSFT
# SFT ## Определение Supervised Fine-Tuning — метод дообучения модели на размеченных парах инструкция-ответ; первый этап RLHF для адаптации стиля и…
- wikireward model
# reward model ## Определение Компонент RLHF, обучаемый на ранжированных данных для оценки качества ответов. ## Где встречается - [[36. Что такое DPO (Direct…
- wikiTruthfulQA
…Как вы проверяете, что RLHF не сломал базовые способности модели|337. Как вы проверяете, что RLHF не сломал базовые способности…
- wikiKL divergence
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
- wikiReinforcement Learning from Human Feedback
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
- answerКак вы проверяете, что RLHF не сломал базовые способности модели?
…Как вы проверяете, что RLHF не сломал базовые способности модели? ## Краткий тезис **[[Вики/Reinforcement Learning from Human Feedback\|RLHF]] ([[Вики…
- wikipreference data collection
…Как работает synthetic data для RLHF (предпочтения)|686. Как работает synthetic data для RLHF (предпочтения)]] - [[800+ вопросов|800+ вопросов]] - [[270…
- wikiensemble RM
…Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…
- wikipairwise ranking loss
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
- wikiensemble reward models
…Что такое reward hacking в RLHF и как его детектировать|344. Что такое reward hacking в RLHF и как его…
- wikiPPOTrainer
# PPOTrainer ## Определение Компонент библиотеки TRL (Transformers Reinforcement Learning) для обучения с подкреплением методом PPO, применяемый, например, в RLHF для детекции…
- wikisycophancy
# sycophancy ## Определение Тип reward hacking в RLHF, когда модель льстит пользователю и соглашается с любым утверждением, вместо объективного ответа. ## Где…
- wikiSFT Model
# SFT Model ## Определение Модель после supervised fine-tuning, используемая как reference policy в RLHF. ## Где встречается - [[329. Как обучается reward…
- wikiGPT-2 small
# GPT-2 small ## Определение Малая версия модели GPT-2, используемая в пет-проектах для симуляции reward hacking в RLHF. ## Где…
- wikiTarget KL
# Target KL ## Определение Целевое значение KL divergence для adaptive KL penalty в RLHF, обычно 0.01–0.1 на токен…
- wikiScale AI
# Scale AI ## Определение Платформа для сбора и разметки данных, используемая в том числе для сбора предпочтений при RLHF. ## Где встречается…
- wikiGRPO
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
- answerКак вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)?
…Инструменты: - Python, Hugging Face Transformers, TRL (для RLHF). - Датасет: Anthropic HH-RLHF (человеческие предпочтения). - Judge: GPT-4 (через API) или…
- wikiType-token ratio
…Как детектировать reward hacking в RLHF|873. Как детектировать reward hacking в RLHF]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiLabelbox
# Labelbox ## Определение Платформа для разметки данных, поддерживающая сбор предпочтений и оценок (например, для RLHF). Предоставляет инструменты для организации процесса разметки…
- wikiKendall's τ
…Применяется для оценки качества reward model в RLHF вне стандартных бенчмарков. ## Где встречается - [[331. Как вы измеряете quality RLHF модели…
- wikilength exploitation
# length exploitation ## Определение Тип reward hacking в RLHF, при котором модель генерирует чрезмерно длинные ответы, чтобы искусственно увеличить reward, так…
- wikiAmazon Mechanical Turk
…Используется для сбора предпочтений при RLHF-оценке. ## Где встречается - [[138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она…
- wikiChain-of-Thought критика
…Применяется в синтетических данных для RLHF. ## Где встречается - [[686. Как работает synthetic data для RLHF (предпочтения)|686. Как работает synthetic…
- wikidownstream metrics
…Что такое reward hacking в RLHF и как его детектировать|489. Что такое reward hacking в RLHF и как его…
- wikialignment tax
# alignment tax ## Определение Снижение производительности или качества ответов модели в результате применения методов выравнивания (alignment), таких как RLHF или adversarial…
- wikidata mixing
# data mixing ## Определение Стратегия перемешивания данных из разных источников (RLHF, SFT, книги, веб, код) в батчах для предотвращения забывания и…
- wikiBradley-Terry model
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF]] - [[329. Как обучается reward model для RLHF и как…
- wikiOpenAI Evals
…Что такое reward hacking в RLHF и как его детектировать|344. Что такое reward hacking в RLHF и как его…
- wikiGoodhart's law
…Что такое reward hacking в RLHF и как его детектировать|344. Что такое reward hacking в RLHF и как его…
- wikiText repetition
…Что такое reward hacking в RLHF и как его детектировать|344. Что такое reward hacking в RLHF и как его…
- wikiConstitutional AI
…Что такое Constitutional AI и как RLHF связан с ним|340. Что такое Constitutional AI и как RLHF связан с…
- wikiAlpaca
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
- answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?
…RLHF (Reinforcement Learning from Human Feedback) [[Вики/Reinforcement Learning from Human Feedback\|RLHF]] — это техника дообучения [[Вики/LLM\|LLM]], при…
- wikiGPT-2
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
- wikiKrippendorff's Alpha
…Как работает RLHF (Reinforcement Learning from Human Feedback) технически|326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически]] - [[492…
- answerЧто такое Constitutional AI и как RLHF связан с ним?
…Как RLHF связан с Constitutional AI: сравнение | Аспект | Pure RLHF | Constitutional AI + RLHF | |--------|-----------|--------------------------| | Источник правил | Только человеческие предпочтения | Конституция + человеческие…
- wikiConstitution
…Что такое Constitutional AI и как RLHF связан с ним|340. Что такое Constitutional AI и как RLHF связан с…
- wikiadversarial training
…Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…
- wikiIdentity Preference Optimization
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiOn-policy
…Как работает RLHF (Reinforcement Learning from Human Feedback) технически|326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически]] ## Навигация…