Поиск
- wikiAdaptive KL penalty
# Adaptive KL penalty ## Определение Механизм динамической подстройки коэффициента β в PPO для контроля KL-дивергенции между текущей и референтной политикой…
- answerКак работает KL penalty в RLHF и как подобрать коэффициент?
…Стандартный подход — [[Вики/Adaptive KL penalty\|adaptive KL penalty]], где β динамически подстраивается: - Если KL слишком мал (< [[Вики/Target KL…
- wikiTarget KL
# Target KL ## Определение Целевое значение KL divergence для adaptive KL penalty в RLHF, обычно 0.01–0.1 на токен…
- wikiKL penalty
# KL penalty ## Определение Штраф в RLHF, препятствующий слишком сильному отклонению новой политики от reference политики. Вычисляется как KL-дивергенция между…
- answerЧто такое KL divergence и где она применяется в LLM (RLHF, distillation)?
…Определение и формула KL divergence [[Вики/KL penalty\|KL divergence]] (также относительная [[Вики/Entropy\|энтропия]]) для дискретных распределений P и…
- wikiKL divergence
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
- wikiGPT-4 eval
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
- wikiGRPO
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
- answerЧто такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?
…KL penalty и reference model В RLHF к reward добавляют [[Вики/KL penalty\|KL divergence penalty]]: $$ R_{total} = R_{reward…
- answerКак обучается reward model для RLHF и как избегать reward hacking?
…KL penalty (KL-пенальти) [[Вики/KL penalty\|KL-пенальти]] — добавление штрафа в функцию reward за отклонение политики от reference policy…
- wikisweep
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
- wikireward hacking
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
- answerЧто такое calibration в контексте reward model для RLHF?
…Однако есть нюансы: - [[Вики/KL penalty\|KL penalty]] использует абсолютное значение вознаграждения. Если reward model выдаёт некалиброванные scores, то выбор…
- answerЧто такое reward hacking в RLHF и как его детектировать?
…Основные методы борьбы — [[Вики/KL penalty\|KL penalty]], [[Вики/ensemble RM\|ensemble reward models]] и **[[Вики/adversarial training\|adversarial training…
- answerЧто такое reward hacking в RLHF и как его детектировать?
…Регуляризация в RL - Увеличить [[Вики/KL penalty\|KL penalty]] (коэффициент β в PPO), чтобы модель не отклонялась далеко от SFT…
- answerЧто такое EAGLE-3 и чем он отличается от стандартного speculative decoding?
…EAGLE-2 добавил **динамическое построение дерева кандидатов**, а EAGLE-3 — **penalty|KL divergence penalty|KL divergence top-k penalty|KL…
- wikiSFT
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
- wikiProximal Policy Optimization
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
- wikiDirect Preference Optimization
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
- answerКак детектировать reward hacking в RLHF?
…Защита от reward hacking ### 5.1 KL penalty (KL-регуляризация) В [[Вики/Proximal Policy Optimization\|PPO]] добавляется [[Вики/error penalty…
- answerКак вы проверяете, что RLHF не сломал базовые способности модели?
…PPO с KL-штрафом kl_penalty = beta * kl_divergence(ref_logits, policy_logits) reward = human_reward - kl_penalty ``` ### 5.2…
- wikireward model
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
- answerКак работает RLHF (Reinforcement Learning from Human Feedback) технически?
…Неправильный learning rate или KL penalty могут привести к коллапсу модели (генерация бессмысленного текста). ### 7.4 Ограниченность reward model RM…
- wikiReinforcement Learning from Human Feedback
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
- answerЧем отличается эвалюация LLM от эвалюации традиционных ML моделей?
…Вместо статистических тестов распределений (penalty|KL divergence, PSI) здесь используются метрики faithfulness, answer relevance и согласованность. ## 1. Термины: эвалюация, LLM…
- answerЧто такое Variational Speculative Decoding (VSD) и чем он революционен?
…q_θ(x) ] = - KL(q_θ || p) ``` Где `KL(q_θ || p)` — [[Вики/KL penalty\|KL-дивергенция]] (расхождение Кульбака-Лейблера…
- wikibaseline
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
- wikiROUGE
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
- wikiBLEU
…Как работает KL penalty в RLHF и как подобрать коэффициент|332. Как работает KL penalty в RLHF и как подобрать…
- answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?
…но с [[Вики/error penalty\|penalty]] за отклонение от исходной модели ([[Вики/KL divergence\|KL-дивергенция]]), чтобы не потерять способность…
- answerGRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?
…Высокая (GAE, clipping, entropy bonus) | Средняя (только policy loss + KL penalty) | | [[Вики/Memory\|Память]] | Требует хранения value network и RM…
- answerКак вы отслеживаете data drift для распределения запросов к RAG?
…например, последние 7 дней или данные валидации). [[Вики/KL penalty\|KL-дивергенция]] (Kullback–Leibler divergence) — мера того, насколько одно распределение…
- answerКак работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?
…Как работает KL penalty в RLHF и как подобрать коэффициент\|332]] | KL-дивергенция и регуляризация политики | --- ## 11. Навигация (Obsidian) - Предыдущий…
- answerКак работает model stealing attack (экстракция модели через API)?
…TinyLLaMA]]). - [[Вики/Loss\|Функция потерь]]: - Для логитов: [[Вики/KL penalty\|KL-дивергенция]] между распределениями студента и учителя. - Для сэмплов: [[Вики…
- answerКак вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)?
…Как работает KL penalty в RLHF и как подобрать коэффициент\|332]] | Как вы проводите human evaluation для RLHF? | | [[329. Как…
- answerЧто такое preference data collection и как минимизировать bias в сравнениях?
…Как работает KL penalty в RLHF и как подобрать коэффициент\|332]] | Как собирать feedback от пользователей для RAG-системы? | | [[334…
- answerКак вы детектируете Distribution Collapse у агента?
…Дополнительные методы детекции | Метод | Суть | Когда полезен | |-------|------|---------------| | [[Вики/KL penalty\|KL‑divergence]] | Сравниваем распределение ответов агента с эталонным распределением (например…
- answerКак вы проектируете агента, который может работать непрерывно (24/7) без дрейфа поведения?
…Метрики для обнаружения - [[Вики/KL penalty\|KL-дивергенция]] (Kullback–Leibler) — мера различия между текущим распределением действий и эталонным (например, за…
- answerЧто такое RLAIF (RL from AI Feedback) и как он масштабируется?
…Как работает KL penalty в RLHF и как подобрать коэффициент\|332]] | Как работает Constitutional AI? | | [[333. Что такое preference data…
- answerКак вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофического забывания?
…Реализуется через квадратичный penalty: ``` L_total = L_new + λ * Σ_i F_i * (θ_i - θ_i_old)^2 ``` где…
- answerКак вы делаете data quality monitoring для RAG корпуса?
…PSI\|Population Stability Index]] ([[Вики/PSI\|PSI]])** или [[Вики/KL penalty\|Kullback-Leibler divergence]]. - Если [[Вики/drift\|дрейф]] превышает [[Вики…
- wikiИндекс терминов
…Adaptive design]] - [[Вики/adaptive KL controller|adaptive KL controller]] - [[Вики/Adaptive KL penalty|Adaptive KL penalty]] - [[Вики/adaptive learning rates…
- question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…KL penalty между новой policy и reference policy (чтобы не отклоняться слишком далеко). В distillation: минимизируем KL(student || teacher). В…
- indexИндекс разборов
…Как работает KL penalty в RLHF и как подобрать коэффициент\|332. Как работает KL penalty в RLHF и как подобрать…
- indexОглавление
…Как работает KL penalty в RLHF и как подобрать коэффициент\|332. Как работает KL penalty в RLHF и как подобрать…
- indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…223 | | 331 | Quality RLHF | Q 146, Pet 236 | | 332 | KL penalty | Pet 223 | | 333 | Preference collection | Q 146, Q 158…