Поиск

  • wikiDPO gradient

    # DPO gradient ## Определение Градиент функции потерь DPO, который увеличивает вероятность предпочтительного ответа и уменьшает вероятность непредпочтительного с весом, зависящим от…

  • wikiDPOTrainer

    # DPOTrainer ## Определение Компонент библиотеки TRL для обучения модели методом DPO. Требует задания model, ref_model и dataset с предпочтениями. ## Где…

  • wikiDPO loss

    …Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…

  • wikiBradley-Terry model

    …Применяется в RLHF для обучения reward model и в DPO для вывода функции потерь. ## Где встречается - [[36. Что такое DPO

  • wikioff-policy

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?

    …Что такое Iterated DPO (IDPO) и как он отличается от статического DPO?\|40]] | Итерации DPO | | [[41. Как оценить качество alignment…

  • wikiIdentity Preference Optimization

    # Identity Preference Optimization ## Определение Улучшение DPO, устраняющее гиперпараметр β. ## Где встречается - [[36. Что такое DPO (Direct Preference Optimization) и чем…

  • answerКак работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?

    …Потеря DPO: вывод и формула [[Вики/DPO loss\|Потеря DPO]] — это [[Вики/cross-entropy loss\|отрицательное логарифмическое правдоподобие]] модели предпочтений…

  • wikiimplicit reward

    # implicit reward ## Определение Вознаграждение, неявно моделируемое в Direct Preference Optimization (DPO) через отношение вероятностей текущей и референсной политики, заменяющее явную…

  • wikiAccuracy on goldenset

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO

  • answerЧто такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO?

    DPO (Direct Preference Optimization) [[Вики/Direct Preference Optimization\|DPO]] — метод [[Вики/safety alignment\|alignment]], который напрямую оптимизирует политику модели на…

  • wikiKahneman-Tversky Optimization

    # Kahneman-Tversky Optimization ## Определение Метод alignment, использующий только хорошие или плохие ответы без парных предпочтений, альтернатива DPO, основанный на теории…

  • wikiLabel Studio

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO

  • wikiReward score

    …Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…

  • wikipreference data collection

    # preference data collection ## Определение Процесс сбора человеческих предпочтений в виде триплетов (prompt, chosen, rejected) для обучения reward model или DPO

  • wikiDeliberative consensus

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO

  • wikiSimple Preference Optimization

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikiExpert arbitration

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO

  • wikipartition function

    …Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…

  • wikiWin rate

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO

  • wikiReference point

    …Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…

  • wikiAdjudication

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO

  • wikiclosed-form expression

    …Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…

  • wikiLoss aversion

    …Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…

  • wikiCross-validation annotators

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO

  • wikicollapse

    …Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…

  • wikiOffline preference optimization

    …Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…

  • wikiprospect theory

    …Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…

  • wikiEdit distance

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO

  • wikiOdds Ratio Preference Optimization

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikiPolicy

    # Policy ## Определение Стратегия (нейросеть или правила), отображающая состояния в действия; используется в RL (PPO, DPO) как генератор действий, а также…

  • wikiProdigy

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO

  • wikiAnthropic HH-RLHF

    …Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…

  • wikicontrastive learning

    …Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…

  • wikiDirect Preference Optimization

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikiAmazon SageMaker Ground Truth

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO

  • wikiFleiss' Kappa

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO

  • wikiConfusion matrix

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|516. Как вы управляете качеством разметки (label quality) для DPO

  • wikireward hacking

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO

  • wikiGRPO

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikiKrippendorff's Alpha

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO

  • answerКак вы управляете качеством разметки (label quality) для DPO датасетов?

    …Как вы управляете качеством разметки (label quality) для DPO датасетов? ## Краткий тезис Качество разметки — критический фактор успеха **DPO (Direct Preference…

  • wikiConsensus

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO

  • wikiHelpfulness / Harmlessness

    …Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…

  • answerЧто такое **agent distillation** (обучение маленького агента на траекториях большого)?

    …Формула [[Вики/Direct Preference Optimization\|DPO]] (упрощённо): ``` L_DPO = - E[ log σ( β * (log π_θ(chosen) - log π_ref…

  • wikiPrecision/Recall

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO

  • wikiTinyLlama

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikiactive learning

    …Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO

  • answerКак вы управляете качеством разметки (label quality) для DPO датасетов?

    …Как вы управляете качеством разметки (label quality) для DPO датасетов? ## Краткий тезис Качество разметки в DPO-датасетах критически важно, потому…

  • answerЧто такое KL divergence и где она применяется в LLM (RLHF, distillation)?

    …KL divergence в DPO (Direct Preference Optimization) [[Вики/Direct Preference Optimization\|DPO]] — альтернатива [[Вики/Reinforcement Learning from Human Feedback\|RLHF…