Поиск
- wikipreference data collection
# preference data collection ## Определение Процесс сбора человеческих предпочтений в виде триплетов (prompt, chosen, rejected) для обучения reward model или DPO…
- wikianchoring bias
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikiAmazon SageMaker Ground Truth
…Используется для сбора preference data и обеспечения качества разметки. ## Где встречается - [[333. Что такое preference data collection и как минимизировать…
- wikiBradley-Terry model
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikiArgilla
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikifatigue curve
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikicontrast effect
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikifatigue bias
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikipairwise comparisons
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikiposition bias ratio
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikileniency bias
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikicross-model
…preference pairs: ответ от более сильной модели считается chosen, от более слабой — rejected. ## Где встречается - [[686. Как работает synthetic data…
- wikicentral tendency bias
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikiDirect Preference Optimization
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- answerЧто такое preference data collection и как минимизировать bias в сравнениях?
…Что такое preference data collection и как минимизировать bias в сравнениях? ## Краткий тезис [[Вики/preference data collection\|Preference data collection…
- wikiDPOTrainer
…Требует задания model, ref_model и dataset с предпочтениями. ## Где встречается - [[36. Что такое DPO (Direct Preference Optimization) и чем…
- answerКак работает synthetic data для RLHF (предпочтения)?
…Ключевой узкий этап — сбор **[[Вики/preference data collection\|preference data]]** (данных предпочтений). [[Вики/Human evaluation\|Ручная разметка]] дорога, медленна и…
- wikiLabel Studio
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikiPosition bias
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?
…1. **[[Вики/preference data collection\|Сбор данных предпочтений]] ([[Вики/preference data collection\|preference data]])**. Человек-аннотатор видит пару ответов на…
- answerЧто такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO?
…Preference Optimization\|DPO]]. Инструменты - [[Вики/SQL\|Python]], [[Вики/PyTorch\|PyTorch]], [[Вики/transformers\|Transformers]] ([[Вики/Hugging Face\|Hugging Face]]) - [[Вики/dataset…
- wikiElo rating
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikiInter-annotator agreement
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikiFleiss' Kappa
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikiReinforcement Learning from Human Feedback
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikireward model
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RLAIF для генерации предпочтений
…Сохранить результат в `data/ai_preferences.[[Вики/CSV\|csv]]` (колонки: `id`, `ai_chosen`). 3. Для контроля качества выборочно проверить 20…
- wikisafety alignment
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- wikiProximal Policy Optimization
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiKL penalty
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiKL divergence
…Как вы мониторите дрейф данных (data drift) для RAG|74. Как вы мониторите дрейф данных (data drift) для RAG]] - [[138…
- wikiCohen's Kappa
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- answerКак вы управляете качеством разметки (label quality) для DPO датасетов?
…DPO и его чувствительность к разметке **[[Вики/Direct Preference Optimization\|DPO]] ([[Вики/Direct Preference Optimization\|Direct Preference Optimization]])** — метод [[Вики…
- answerКак работает agent replay для улучшения качества (анализ failed траекторий)?
…Fine-tuning (DPO) на парах траекторий **[[Вики/Direct Preference Optimization\|Direct Preference Optimization]] ([[Вики/Direct Preference Optimization\|DPO]])** — метод обучения…
- answerКак вы управляете качеством разметки (label quality) для DPO датасетов?
…chosen/rejected), без отдельной модели вознаграждения. [[Вики/dataset\|Датасет]] для [[Вики/Direct Preference Optimization\|DPO]] состоит из троек: ([[Вики/промпт…
- answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?
…Ключевые подходы — [[Вики/Social choice aggregation\|social choice aggregation]] ([[Вики/aggregation\|агрегация]] предпочтений группы экспертов), [[Вики/preference distributions\|preference distributions…
- wikiHugging Face TRL
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiPairwise comparison
# Pairwise comparison ## Определение Метод сбора предпочтений, при котором аннотатор выбирает лучший из двух вариантов; основной механизм RLHF, снижающий субъективность по…
- wikiSFT
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikigold standard
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- answerКак вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофического забывания?
…DPO вместо RLHF **[[Вики/Direct Preference Optimization\|DPO]] ([[Вики/Direct Preference Optimization\|Direct Preference Optimization]])** — метод, который напрямую оптимизирует политику…
- answerКак работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)? ## Краткий тезис **Direct Preference Optimization (DPO)** — это метод выравнивания языковых…
- answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…Adversarial примеры используются как негативные примеры. - **DPO (Direct Preference Optimization)** : альтернатива RLHF, где предпочтения (безопасный ответ > опасный) задаются напрямую. Adversarial…
- answerКак вы делаете online RL для агентов (self-improvement loops)?
…Что такое preference data collection и как минимизировать bias в сравнениях\|333]] - Следующий: [[335. Как работает Direct Preference Optimization (DPO…
- wikiWeights & Biases
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiLangSmith
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
- answerКак работает KL penalty в RLHF и как подобрать коэффициент?
…Что такое preference data collection и как минимизировать bias в сравнениях\|333]] | PPO в RLHF | | [[334. Как вы делаете online…
- wikibias
…Как вы делаете data quality для синтетических датасетов|534. Как вы делаете data quality для синтетических датасетов]] - [[681. Как вы…
- wikibaseline
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
- answerКак вы деплоите policy (RLHF модель) в production с online feedback loop?
…Сформировать [[Вики/preference data collection\|preference dataset]] (пары ответов, где один предпочтительнее). 4. Обучить новую reward model или дообучить policy…