Поиск

  • wikiProximal Policy Optimization

    # Proximal Policy Optimization ## Определение Алгоритм обучения с подкреплением с клиппингом, используемый в RLHF для стабильного обучения. ## Где встречается - [[36. Что…

  • wikiAnthropic HH-RLHF

    # Anthropic HH-RLHF ## Определение Датасет парных предпочтений от Anthropic, используемый для RLHF и оценки выравнивания модели. ## Где встречается - [[331. Как…

  • wikireward hacking

    …Как работает RLHF (Reinforcement Learning from Human Feedback) технически|326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически]] - [[329…

  • wikiiterated RLHF

    # iterated RLHF ## Определение Процесс повторного сбора человеческих предпочтений и дообучения модели вознаграждения после каждого раунда RLHF для улучшения политики. ## Где…

  • wikiRLHF Evaluation Suite

    # RLHF Evaluation Suite ## Определение Комплекс метрик от OpenAI для оценки качества выравнивания (alignment) моделей, обученных с помощью RLHF. ## Где встречается…

  • wikiKL penalty

    # KL penalty ## Определение Штраф в RLHF, препятствующий слишком сильному отклонению новой политики от reference политики. Вычисляется как KL-дивергенция между…

  • wikiHugging Face TRL

    …Как работает RLHF (Reinforcement Learning from Human Feedback) технически|326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически]] - [[328…

  • wikiDirect Preference Optimization

    # Direct Preference Optimization ## Определение Метод оптимизации на основе парных предпочтений, альтернатива RLHF, проще и стабильнее, использует implicit reward. ## Где встречается…

  • wikiproxy reward

    # proxy reward ## Определение Аппроксимация истинной цели, которую оптимизирует модель; причина reward hacking в RLHF. ## Где встречается - [[344. Что такое reward…

  • wikiSFT

    # SFT ## Определение Supervised Fine-Tuning — метод дообучения модели на размеченных парах инструкция-ответ; первый этап RLHF для адаптации стиля и…

  • wikireward model

    # reward model ## Определение Компонент RLHF, обучаемый на ранжированных данных для оценки качества ответов. ## Где встречается - [[36. Что такое DPO (Direct…

  • wikiTruthfulQA

    …Как вы проверяете, что RLHF не сломал базовые способности модели|337. Как вы проверяете, что RLHF не сломал базовые способности…

  • wikiKL divergence

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF

  • wikiReinforcement Learning from Human Feedback

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF

  • answerКак вы проверяете, что RLHF не сломал базовые способности модели?

    …Как вы проверяете, что RLHF не сломал базовые способности модели? ## Краткий тезис **[[Вики/Reinforcement Learning from Human Feedback\|RLHF]] ([[Вики…

  • wikipreference data collection

    …Как работает synthetic data для RLHF (предпочтения)|686. Как работает synthetic data для RLHF (предпочтения)]] - [[800+ вопросов|800+ вопросов]] - [[270…

  • wikiensemble RM

    …Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…

  • wikipairwise ranking loss

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF

  • wikiensemble reward models

    …Что такое reward hacking в RLHF и как его детектировать|344. Что такое reward hacking в RLHF и как его…

  • wikiPPOTrainer

    # PPOTrainer ## Определение Компонент библиотеки TRL (Transformers Reinforcement Learning) для обучения с подкреплением методом PPO, применяемый, например, в RLHF для детекции…

  • wikisycophancy

    # sycophancy ## Определение Тип reward hacking в RLHF, когда модель льстит пользователю и соглашается с любым утверждением, вместо объективного ответа. ## Где…

  • wikiSFT Model

    # SFT Model ## Определение Модель после supervised fine-tuning, используемая как reference policy в RLHF. ## Где встречается - [[329. Как обучается reward…

  • wikiGPT-2 small

    # GPT-2 small ## Определение Малая версия модели GPT-2, используемая в пет-проектах для симуляции reward hacking в RLHF. ## Где…

  • wikiTarget KL

    # Target KL ## Определение Целевое значение KL divergence для adaptive KL penalty в RLHF, обычно 0.01–0.1 на токен…

  • wikiScale AI

    # Scale AI ## Определение Платформа для сбора и разметки данных, используемая в том числе для сбора предпочтений при RLHF. ## Где встречается…

  • wikiGRPO

    …Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…

  • answerКак вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)?

    …Инструменты: - Python, Hugging Face Transformers, TRL (для RLHF). - Датасет: Anthropic HH-RLHF (человеческие предпочтения). - Judge: GPT-4 (через API) или…

  • wikiType-token ratio

    …Как детектировать reward hacking в RLHF|873. Как детектировать reward hacking в RLHF]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiLabelbox

    # Labelbox ## Определение Платформа для разметки данных, поддерживающая сбор предпочтений и оценок (например, для RLHF). Предоставляет инструменты для организации процесса разметки…

  • wikiKendall's τ

    …Применяется для оценки качества reward model в RLHF вне стандартных бенчмарков. ## Где встречается - [[331. Как вы измеряете quality RLHF модели…

  • wikilength exploitation

    # length exploitation ## Определение Тип reward hacking в RLHF, при котором модель генерирует чрезмерно длинные ответы, чтобы искусственно увеличить reward, так…

  • wikiAmazon Mechanical Turk

    …Используется для сбора предпочтений при RLHF-оценке. ## Где встречается - [[138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она…

  • wikiChain-of-Thought критика

    …Применяется в синтетических данных для RLHF. ## Где встречается - [[686. Как работает synthetic data для RLHF (предпочтения)|686. Как работает synthetic…

  • wikidownstream metrics

    …Что такое reward hacking в RLHF и как его детектировать|489. Что такое reward hacking в RLHF и как его…

  • wikialignment tax

    # alignment tax ## Определение Снижение производительности или качества ответов модели в результате применения методов выравнивания (alignment), таких как RLHF или adversarial…

  • wikidata mixing

    # data mixing ## Определение Стратегия перемешивания данных из разных источников (RLHF, SFT, книги, веб, код) в батчах для предотвращения забывания и…

  • wikiBradley-Terry model

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF]] - [[329. Как обучается reward model для RLHF и как…

  • wikiOpenAI Evals

    …Что такое reward hacking в RLHF и как его детектировать|344. Что такое reward hacking в RLHF и как его…

  • wikiGoodhart's law

    …Что такое reward hacking в RLHF и как его детектировать|344. Что такое reward hacking в RLHF и как его…

  • wikiText repetition

    …Что такое reward hacking в RLHF и как его детектировать|344. Что такое reward hacking в RLHF и как его…

  • wikiConstitutional AI

    …Что такое Constitutional AI и как RLHF связан с ним|340. Что такое Constitutional AI и как RLHF связан с…

  • wikiAlpaca

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF

  • answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?

    RLHF (Reinforcement Learning from Human Feedback) [[Вики/Reinforcement Learning from Human Feedback\|RLHF]] — это техника дообучения [[Вики/LLM\|LLM]], при…

  • wikiGPT-2

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF

  • wikiKrippendorff's Alpha

    …Как работает RLHF (Reinforcement Learning from Human Feedback) технически|326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически]] - [[492…

  • answerЧто такое Constitutional AI и как RLHF связан с ним?

    …Как RLHF связан с Constitutional AI: сравнение | Аспект | Pure RLHF | Constitutional AI + RLHF | |--------|-----------|--------------------------| | Источник правил | Только человеческие предпочтения | Конституция + человеческие…

  • wikiConstitution

    …Что такое Constitutional AI и как RLHF связан с ним|340. Что такое Constitutional AI и как RLHF связан с…

  • wikiadversarial training

    …Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…

  • wikiIdentity Preference Optimization

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikiOn-policy

    …Как работает RLHF (Reinforcement Learning from Human Feedback) технически|326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически]] ## Навигация…