Поиск

  • wikiProximal Policy Optimization

    # Proximal Policy Optimization ## Определение Алгоритм обучения с подкреплением с клиппингом, используемый в RLHF для стабильного обучения. ## Где встречается - [[36. Что…

  • wikiRLAIF

    …Что такое RLAIF (RL from AI Feedback) и как он масштабируется|330. Что такое RLAIF (RL from AI Feedback) и…

  • wikiTruthfulQA

    …Что такое RLAIF (RL from AI Feedback) и как он масштабируется|330. Что такое RLAIF (RL from AI Feedback) и…

  • wikiConstrained RL

    # Constrained RL ## Определение RL со штрафами за опасные действия для обеспечения безопасности. ## Где встречается - [[334. Как вы делаете online RL

  • wikiHugging Face TRL

    …Что такое RLAIF (RL from AI Feedback) и как он масштабируется|330. Что такое RLAIF (RL from AI Feedback) и…

  • wikiAnthropic HH-RLHF

    # Anthropic HH-RLHF ## Определение Датасет парных предпочтений от Anthropic, используемый для RLHF и оценки выравнивания модели. ## Где встречается - [[331. Как…

  • wikiDirect Preference Optimization

    # Direct Preference Optimization ## Определение Метод оптимизации на основе парных предпочтений, альтернатива RLHF, проще и стабильнее, использует implicit reward. ## Где встречается…

  • wikireward hacking

    …Как работает RLHF (Reinforcement Learning from Human Feedback) технически|326. Как работает RLHF (Reinforcement Learning from Human Feedback) технически]] - [[329…

  • answerЧто такое RLAIF (RL from AI Feedback) и как он масштабируется?

    …Что такое RLAIF (RL from AI Feedback) и как он масштабируется? ## Краткий тезис **[[Вики/RLAIF\|RLAIF]] ([[Вики/RLAIF\|Reinforcement Learning…

  • wikireward model

    # reward model ## Определение Компонент RLHF, обучаемый на ранжированных данных для оценки качества ответов. ## Где встречается - [[36. Что такое DPO (Direct…

  • wikiRL4LMs

    …Как вы делаете online RL для агентов (self-improvement loops)|334. Как вы делаете online RL для агентов (self-improvement…

  • wikiBBQ

    # BBQ ## Определение Бенчмарк для измерения стереотипов и предвзятости в языковых моделях, используется для оценки bias amplification после RLAIF. ## Где встречается…

  • wikiiterated RLHF

    # iterated RLHF ## Определение Процесс повторного сбора человеческих предпочтений и дообучения модели вознаграждения после каждого раунда RLHF для улучшения политики. ## Где…

  • wikiRLHF Evaluation Suite

    # RLHF Evaluation Suite ## Определение Комплекс метрик от OpenAI для оценки качества выравнивания (alignment) моделей, обученных с помощью RLHF. ## Где встречается…

  • wikiOffline RL

    # Offline RL ## Определение Подход обучения с подкреплением, при котором агент обучается исключительно на статическом датасете, не взаимодействуя с окружением. ## Где…

  • wikiKL penalty

    # KL penalty ## Определение Штраф в RLHF, препятствующий слишком сильному отклонению новой политики от reference политики. Вычисляется как KL-дивергенция между…

  • wikiproxy reward

    # proxy reward ## Определение Аппроксимация истинной цели, которую оптимизирует модель; причина reward hacking в RLHF. ## Где встречается - [[344. Что такое reward…

  • wikiSFT

    # SFT ## Определение Supervised Fine-Tuning — метод дообучения модели на размеченных парах инструкция-ответ; первый этап RLHF для адаптации стиля и…

  • wikiReinforcement Learning from Human Feedback

    …Что такое RLAIF (RL from AI Feedback) и как он масштабируется|330. Что такое RLAIF (RL from AI Feedback) и…

  • wikiModel-based RL

    # Model-based RL ## Определение Подход обучения с подкреплением, где агент строит внутреннюю модель окружения для более эффективного использования данных. ## Где…

  • wikipreference data collection

    …Как работает synthetic data для RLHF (предпочтения)]] - [[800+ вопросов|800+ вопросов]] - [[270. Настроить RLAIF для генерации предпочтений|270. Настроить RLAIF

  • wikiConstitutional AI

    # Constitutional AI ## Определение Подход, при котором LLM генерирует сравнения на основе заданных принципов (конституции), что лежит в основе RLAIF. ## Где…

  • wikiKL divergence

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF

  • wikisafety benchmarks

    …Что такое RLAIF (RL from AI Feedback) и как он масштабируется|330. Что такое RLAIF (RL from AI Feedback) и…

  • wikiGeneralized Advantage Estimation

    # Generalized Advantage Estimation ## Определение Метод оценки преимущества (advantage) в алгоритмах RL (PPO, A2C), используемый с Value Head для стабильного обновления…

  • answerКак вы делаете online RL для агентов (self-improvement loops)?

    …Можно комбинировать с RL для выбора лучшей рефлексии. --- ## 7. Инструменты и фреймворки | Инструмент | Назначение | Особенности | |------------|------------|-------------| | [[Вики/RL4LMs\|RL4LMs]] | RL для…

  • wikiself-play

    …Что такое RLAIF (RL from AI Feedback) и как он масштабируется|330. Что такое RLAIF (RL from AI Feedback) и…

  • wikionline reinforcement learning

    …Как вы делаете online RL для агентов (self-improvement loops)|334. Как вы делаете online RL для агентов (self-improvement…

  • wikiGRPO

    # GRPO ## Определение Group Relative Policy Optimization — метод оптимизации политики в RL для alignment LLM, не требующий отдельной модели вознаграждения, основанный…

  • answerКак вы проверяете, что RLHF не сломал базовые способности модели?

    …Как вы проверяете, что RLHF не сломал базовые способности модели? ## Краткий тезис **[[Вики/Reinforcement Learning from Human Feedback\|RLHF]] ([[Вики…

  • answerКак вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)?

    …Что такое RLAIF (RL from AI Feedback) и как он масштабируется\|330]] | Как вы оцениваете reward model в RLHF? | | [[332…

  • wikiensemble RM

    …Как обучается reward model для RLHF и как избегать reward hacking|329. Как обучается reward model для RLHF и как…

  • wikipairwise ranking loss

    …Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF

  • wikiRL update

    # RL update ## Определение Шаг оптимизации, при котором параметры политики агента корректируются на основе собранных траекторий в обучении с подкреплением. ## Где…

  • wikiensemble reward models

    …Что такое reward hacking в RLHF и как его детектировать|344. Что такое reward hacking в RLHF и как его…

  • wikiPPOTrainer

    # PPOTrainer ## Определение Компонент библиотеки TRL (Transformers Reinforcement Learning) для обучения с подкреплением методом PPO, применяемый, например, в RLHF для детекции…

  • wikiStable-Baselines3

    # Stable-Baselines3 ## Определение Фреймворк классического RL, может быть адаптирован для агентов. ## Где встречается - [[334. Как вы делаете online RL для…

  • wikisycophancy

    # sycophancy ## Определение Тип reward hacking в RLHF, когда модель льстит пользователю и соглашается с любым утверждением, вместо объективного ответа. ## Где…

  • wikiAdvantage

    # Advantage ## Определение Оценка того, насколько действие лучше среднего при данном состоянии, используется в RL для credit assignment. ## Где встречается - [[334…

  • wikiRLlib

    # RLlib ## Определение Библиотека для обучения с подкреплением на базе Ray, применяемая для обучения политики агента с траекторным вознаграждением. ## Где встречается…

  • wikiSFT Model

    # SFT Model ## Определение Модель после supervised fine-tuning, используемая как reference policy в RLHF. ## Где встречается - [[329. Как обучается reward…

  • wikiGPT-2 small

    # GPT-2 small ## Определение Малая версия модели GPT-2, используемая в пет-проектах для симуляции reward hacking в RLHF. ## Где…

  • wikiValue head

    …Используется в алгоритмах RL (например, PPO) для вычисления advantage. ## Где встречается - [[326. Как работает RLHF (Reinforcement Learning from Human Feedback…

  • wikiTarget KL

    # Target KL ## Определение Целевое значение KL divergence для adaptive KL penalty в RLHF, обычно 0.01–0.1 на токен…

  • wikiIntrinsic motivation

    # Intrinsic motivation ## Определение Бонус за исследование, используемый для стимулирования агента к более активному изучению среды в online RL. ## Где встречается…

  • wikiScale AI

    # Scale AI ## Определение Платформа для сбора и разметки данных, используемая в том числе для сбора предпочтений при RLHF. ## Где встречается…

  • wikiType-token ratio

    …Как детектировать reward hacking в RLHF|873. Как детектировать reward hacking в RLHF]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiLabelbox

    # Labelbox ## Определение Платформа для разметки данных, поддерживающая сбор предпочтений и оценок (например, для RLHF). Предоставляет инструменты для организации процесса разметки…

  • wikiKendall's τ

    …Применяется для оценки качества reward model в RLHF вне стандартных бенчмарков. ## Где встречается - [[331. Как вы измеряете quality RLHF модели…

  • wikilength exploitation

    # length exploitation ## Определение Тип reward hacking в RLHF, при котором модель генерирует чрезмерно длинные ответы, чтобы искусственно увеличить reward, так…