Поиск

  • wikipreference data collection

    # preference data collection ## Определение Процесс сбора человеческих предпочтений в виде триплетов (prompt, chosen, rejected) для обучения reward model или DPO…

  • wikianchoring bias

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikiAmazon SageMaker Ground Truth

    …Используется для сбора preference data и обеспечения качества разметки. ## Где встречается - [[333. Что такое preference data collection и как минимизировать…

  • wikiBradley-Terry model

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikiArgilla

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikifatigue curve

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikicontrast effect

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikifatigue bias

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikipairwise comparisons

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikiposition bias ratio

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikileniency bias

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikicross-model

    preference pairs: ответ от более сильной модели считается chosen, от более слабой — rejected. ## Где встречается - [[686. Как работает synthetic data

  • wikicentral tendency bias

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikiDirect Preference Optimization

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • answerЧто такое preference data collection и как минимизировать bias в сравнениях?

    …Что такое preference data collection и как минимизировать bias в сравнениях? ## Краткий тезис [[Вики/preference data collection\|Preference data collection…

  • wikiDPOTrainer

    …Требует задания model, ref_model и dataset с предпочтениями. ## Где встречается - [[36. Что такое DPO (Direct Preference Optimization) и чем…

  • answerКак работает synthetic data для RLHF (предпочтения)?

    …Ключевой узкий этап — сбор **[[Вики/preference data collection\|preference data]]** (данных предпочтений). [[Вики/Human evaluation\|Ручная разметка]] дорога, медленна и…

  • wikiLabel Studio

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikiPosition bias

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?

    …1. **[[Вики/preference data collection\|Сбор данных предпочтений]] ([[Вики/preference data collection\|preference data]])**. Человек-аннотатор видит пару ответов на…

  • answerЧто такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO?

    Preference Optimization\|DPO]]. Инструменты - [[Вики/SQL\|Python]], [[Вики/PyTorch\|PyTorch]], [[Вики/transformers\|Transformers]] ([[Вики/Hugging Face\|Hugging Face]]) - [[Вики/dataset

  • wikiElo rating

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikiInter-annotator agreement

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikiFleiss' Kappa

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikiReinforcement Learning from Human Feedback

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikireward model

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RLAIF для генерации предпочтений

    …Сохранить результат в `data/ai_preferences.[[Вики/CSV\|csv]]` (колонки: `id`, `ai_chosen`). 3. Для контроля качества выборочно проверить 20…

  • wikisafety alignment

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • wikiProximal Policy Optimization

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikiKL penalty

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikiKL divergence

    …Как вы мониторите дрейф данных (data drift) для RAG|74. Как вы мониторите дрейф данных (data drift) для RAG]] - [[138…

  • wikiCohen's Kappa

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • answerКак вы управляете качеством разметки (label quality) для DPO датасетов?

    …DPO и его чувствительность к разметке **[[Вики/Direct Preference Optimization\|DPO]] ([[Вики/Direct Preference Optimization\|Direct Preference Optimization]])** — метод [[Вики…

  • answerКак работает agent replay для улучшения качества (анализ failed траекторий)?

    …Fine-tuning (DPO) на парах траекторий **[[Вики/Direct Preference Optimization\|Direct Preference Optimization]] ([[Вики/Direct Preference Optimization\|DPO]])** — метод обучения…

  • answerКак вы управляете качеством разметки (label quality) для DPO датасетов?

    …chosen/rejected), без отдельной модели вознаграждения. [[Вики/dataset\|Датасет]] для [[Вики/Direct Preference Optimization\|DPO]] состоит из троек: ([[Вики/промпт…

  • answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?

    …Ключевые подходы — [[Вики/Social choice aggregation\|social choice aggregation]] ([[Вики/aggregation\|агрегация]] предпочтений группы экспертов), [[Вики/preference distributions\|preference distributions…

  • wikiHugging Face TRL

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikiPairwise comparison

    # Pairwise comparison ## Определение Метод сбора предпочтений, при котором аннотатор выбирает лучший из двух вариантов; основной механизм RLHF, снижающий субъективность по…

  • wikiSFT

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikigold standard

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • answerКак вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофического забывания?

    …DPO вместо RLHF **[[Вики/Direct Preference Optimization\|DPO]] ([[Вики/Direct Preference Optimization\|Direct Preference Optimization]])** — метод, который напрямую оптимизирует политику…

  • answerКак работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?

    …Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)? ## Краткий тезис **Direct Preference Optimization (DPO)** — это метод выравнивания языковых…

  • answerЧто такое adversarial fine-tuning для защиты от jailbreak?

    …Adversarial примеры используются как негативные примеры. - **DPO (Direct Preference Optimization)** : альтернатива RLHF, где предпочтения (безопасный ответ > опасный) задаются напрямую. Adversarial…

  • answerКак вы делаете online RL для агентов (self-improvement loops)?

    …Что такое preference data collection и как минимизировать bias в сравнениях\|333]] - Следующий: [[335. Как работает Direct Preference Optimization (DPO…

  • wikiWeights & Biases

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikiLangSmith

    …Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…

  • answerКак работает KL penalty в RLHF и как подобрать коэффициент?

    …Что такое preference data collection и как минимизировать bias в сравнениях\|333]] | PPO в RLHF | | [[334. Как вы делаете online…

  • wikibias

    …Как вы делаете data quality для синтетических датасетов|534. Как вы делаете data quality для синтетических датасетов]] - [[681. Как вы…

  • wikibaseline

    …Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…

  • answerКак вы деплоите policy (RLHF модель) в production с online feedback loop?

    …Сформировать [[Вики/preference data collection\|preference dataset]] (пары ответов, где один предпочтительнее). 4. Обучить новую reward model или дообучить policy…