Поиск

wikiDPO gradient
# DPO gradient ## Определение Градиент функции потерь DPO, который увеличивает вероятность предпочтительного ответа и уменьшает вероятность непредпочтительного с весом, зависящим от…
wikiDPOTrainer
# DPOTrainer ## Определение Компонент библиотеки TRL для обучения модели методом DPO. Требует задания model, ref_model и dataset с предпочтениями. ## Где…
wikiDPO loss
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
wikiBradley-Terry model
…Применяется в RLHF для обучения reward model и в DPO для вывода функции потерь. ## Где встречается - [[36. Что такое DPO…
wikioff-policy
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?
…Что такое Iterated DPO (IDPO) и как он отличается от статического DPO?\|40]] | Итерации DPO | | [[41. Как оценить качество alignment…
wikiIdentity Preference Optimization
# Identity Preference Optimization ## Определение Улучшение DPO, устраняющее гиперпараметр β. ## Где встречается - [[36. Что такое DPO (Direct Preference Optimization) и чем…
answerКак работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?
…Потеря DPO: вывод и формула [[Вики/DPO loss\|Потеря DPO]] — это [[Вики/cross-entropy loss\|отрицательное логарифмическое правдоподобие]] модели предпочтений…
wikiimplicit reward
# implicit reward ## Определение Вознаграждение, неявно моделируемое в Direct Preference Optimization (DPO) через отношение вероятностей текущей и референсной политики, заменяющее явную…
wikiAccuracy on goldenset
…Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO…
answerЧто такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO?
…DPO (Direct Preference Optimization) [[Вики/Direct Preference Optimization\|DPO]] — метод [[Вики/safety alignment\|alignment]], который напрямую оптимизирует политику модели на…
wikiKahneman-Tversky Optimization
# Kahneman-Tversky Optimization ## Определение Метод alignment, использующий только хорошие или плохие ответы без парных предпочтений, альтернатива DPO, основанный на теории…
wikiLabel Studio
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
wikiReward score
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
wikipreference data collection
# preference data collection ## Определение Процесс сбора человеческих предпочтений в виде триплетов (prompt, chosen, rejected) для обучения reward model или DPO…
wikiDeliberative consensus
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
wikiSimple Preference Optimization
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikiExpert arbitration
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
wikipartition function
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
wikiWin rate
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
wikiReference point
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
wikiAdjudication
…Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO…
wikiclosed-form expression
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
wikiLoss aversion
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
wikiCross-validation annotators
…Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO…
wikicollapse
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
wikiOffline preference optimization
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
wikiprospect theory
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
wikiEdit distance
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
wikiOdds Ratio Preference Optimization
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikiPolicy
# Policy ## Определение Стратегия (нейросеть или правила), отображающая состояния в действия; используется в RL (PPO, DPO) как генератор действий, а также…
wikiProdigy
…Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO…
wikiAnthropic HH-RLHF
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
wikicontrastive learning
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
wikiDirect Preference Optimization
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikiAmazon SageMaker Ground Truth
…Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO…
wikiFleiss' Kappa
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
wikiConfusion matrix
…Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO…
wikireward hacking
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
wikiGRPO
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikiKrippendorff's Alpha
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
answerКак вы управляете качеством разметки (label quality) для DPO датасетов?
…Как вы управляете качеством разметки (label quality) для DPO датасетов? ## Краткий тезис Качество разметки — критический фактор успеха **DPO (Direct Preference…
wikiConsensus
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
wikiHelpfulness / Harmlessness
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
answerЧто такое **agent distillation** (обучение маленького агента на траекториях большого)?
…Формула [[Вики/Direct Preference Optimization\|DPO]] (упрощённо): ``` L_DPO = - E[ log σ( β * (log π_θ(chosen) - log π_ref…
wikiPrecision/Recall
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
wikiTinyLlama
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikiactive learning
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
answerКак вы управляете качеством разметки (label quality) для DPO датасетов?
…Как вы управляете качеством разметки (label quality) для DPO датасетов? ## Краткий тезис Качество разметки в DPO-датасетах критически важно, потому…
answerЧто такое KL divergence и где она применяется в LLM (RLHF, distillation)?
…KL divergence в DPO (Direct Preference Optimization) [[Вики/Direct Preference Optimization\|DPO]] — альтернатива [[Вики/Reinforcement Learning from Human Feedback\|RLHF…