Поиск
- wikiDPO gradient
# DPO gradient ## Определение Градиент функции потерь DPO, который увеличивает вероятность предпочтительного ответа и уменьшает вероятность непредпочтительного с весом, зависящим от…
- wikiDPOTrainer
# DPOTrainer ## Определение Компонент библиотеки TRL для обучения модели методом DPO. Требует задания model, ref_model и dataset с предпочтениями. ## Где…
- wikiDPO loss
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
- wikiBradley-Terry model
…Применяется в RLHF для обучения reward model и в DPO для вывода функции потерь. ## Где встречается - [[36. Что такое DPO…
- wikioff-policy
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?
…Что такое Iterated DPO (IDPO) и как он отличается от статического DPO?\|40]] | Итерации DPO | | [[41. Как оценить качество alignment…
- wikiIdentity Preference Optimization
# Identity Preference Optimization ## Определение Улучшение DPO, устраняющее гиперпараметр β. ## Где встречается - [[36. Что такое DPO (Direct Preference Optimization) и чем…
- answerКак работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?
…Потеря DPO: вывод и формула [[Вики/DPO loss\|Потеря DPO]] — это [[Вики/cross-entropy loss\|отрицательное логарифмическое правдоподобие]] модели предпочтений…
- wikiimplicit reward
# implicit reward ## Определение Вознаграждение, неявно моделируемое в Direct Preference Optimization (DPO) через отношение вероятностей текущей и референсной политики, заменяющее явную…
- wikiAccuracy on goldenset
…Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO…
- answerЧто такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO?
…DPO (Direct Preference Optimization) [[Вики/Direct Preference Optimization\|DPO]] — метод [[Вики/safety alignment\|alignment]], который напрямую оптимизирует политику модели на…
- wikiKahneman-Tversky Optimization
# Kahneman-Tversky Optimization ## Определение Метод alignment, использующий только хорошие или плохие ответы без парных предпочтений, альтернатива DPO, основанный на теории…
- wikiLabel Studio
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
- wikiReward score
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
- wikipreference data collection
# preference data collection ## Определение Процесс сбора человеческих предпочтений в виде триплетов (prompt, chosen, rejected) для обучения reward model или DPO…
- wikiDeliberative consensus
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
- wikiSimple Preference Optimization
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiExpert arbitration
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
- wikipartition function
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
- wikiWin rate
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
- wikiReference point
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
- wikiAdjudication
…Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO…
- wikiclosed-form expression
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
- wikiLoss aversion
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
- wikiCross-validation annotators
…Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO…
- wikicollapse
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
- wikiOffline preference optimization
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
- wikiprospect theory
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
- wikiEdit distance
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
- wikiOdds Ratio Preference Optimization
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiPolicy
# Policy ## Определение Стратегия (нейросеть или правила), отображающая состояния в действия; используется в RL (PPO, DPO) как генератор действий, а также…
- wikiProdigy
…Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO…
- wikiAnthropic HH-RLHF
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
- wikicontrastive learning
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
- wikiDirect Preference Optimization
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiAmazon SageMaker Ground Truth
…Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO…
- wikiFleiss' Kappa
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
- wikiConfusion matrix
…Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO…
- wikireward hacking
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
- wikiGRPO
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiKrippendorff's Alpha
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
- answerКак вы управляете качеством разметки (label quality) для DPO датасетов?
…Как вы управляете качеством разметки (label quality) для DPO датасетов? ## Краткий тезис Качество разметки — критический фактор успеха **DPO (Direct Preference…
- wikiConsensus
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
- wikiHelpfulness / Harmlessness
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
- answerЧто такое **agent distillation** (обучение маленького агента на траекториях большого)?
…Формула [[Вики/Direct Preference Optimization\|DPO]] (упрощённо): ``` L_DPO = - E[ log σ( β * (log π_θ(chosen) - log π_ref…
- wikiPrecision/Recall
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
- wikiTinyLlama
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiactive learning
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
- answerКак вы управляете качеством разметки (label quality) для DPO датасетов?
…Как вы управляете качеством разметки (label quality) для DPO датасетов? ## Краткий тезис Качество разметки в DPO-датасетах критически важно, потому…
- answerЧто такое KL divergence и где она применяется в LLM (RLHF, distillation)?
…KL divergence в DPO (Direct Preference Optimization) [[Вики/Direct Preference Optimization\|DPO]] — альтернатива [[Вики/Reinforcement Learning from Human Feedback\|RLHF…