Поиск

wikipreference data collection
# preference data collection ## Определение Процесс сбора человеческих предпочтений в виде триплетов (prompt, chosen, rejected) для обучения reward model или DPO…
wikianchoring bias
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikiAmazon SageMaker Ground Truth
…Используется для сбора preference data и обеспечения качества разметки. ## Где встречается - [[333. Что такое preference data collection и как минимизировать…
wikiBradley-Terry model
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikiArgilla
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikifatigue curve
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikicontrast effect
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikifatigue bias
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikipairwise comparisons
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikiposition bias ratio
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikileniency bias
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikicross-model
…preference pairs: ответ от более сильной модели считается chosen, от более слабой — rejected. ## Где встречается - [[686. Как работает synthetic data…
wikicentral tendency bias
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikiDirect Preference Optimization
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
answerЧто такое preference data collection и как минимизировать bias в сравнениях?
…Что такое preference data collection и как минимизировать bias в сравнениях? ## Краткий тезис [[Вики/preference data collection\|Preference data collection…
wikiDPOTrainer
…Требует задания model, ref_model и dataset с предпочтениями. ## Где встречается - [[36. Что такое DPO (Direct Preference Optimization) и чем…
answerКак работает synthetic data для RLHF (предпочтения)?
…Ключевой узкий этап — сбор **[[Вики/preference data collection\|preference data]]** (данных предпочтений). [[Вики/Human evaluation\|Ручная разметка]] дорога, медленна и…
wikiLabel Studio
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikiPosition bias
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?
…1. **[[Вики/preference data collection\|Сбор данных предпочтений]] ([[Вики/preference data collection\|preference data]])**. Человек-аннотатор видит пару ответов на…
answerЧто такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO?
…Preference Optimization\|DPO]]. Инструменты - [[Вики/SQL\|Python]], [[Вики/PyTorch\|PyTorch]], [[Вики/transformers\|Transformers]] ([[Вики/Hugging Face\|Hugging Face]]) - [[Вики/dataset…
wikiElo rating
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikiInter-annotator agreement
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikiFleiss' Kappa
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikiReinforcement Learning from Human Feedback
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikireward model
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RLAIF для генерации предпочтений
…Сохранить результат в `data/ai_preferences.[[Вики/CSV\|csv]]` (колонки: `id`, `ai_chosen`). 3. Для контроля качества выборочно проверить 20…
wikisafety alignment
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
wikiProximal Policy Optimization
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikiKL penalty
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikiKL divergence
…Как вы мониторите дрейф данных (data drift) для RAG|74. Как вы мониторите дрейф данных (data drift) для RAG]] - [[138…
wikiCohen's Kappa
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
answerКак вы управляете качеством разметки (label quality) для DPO датасетов?
…DPO и его чувствительность к разметке **[[Вики/Direct Preference Optimization\|DPO]] ([[Вики/Direct Preference Optimization\|Direct Preference Optimization]])** — метод [[Вики…
answerКак работает agent replay для улучшения качества (анализ failed траекторий)?
…Fine-tuning (DPO) на парах траекторий **[[Вики/Direct Preference Optimization\|Direct Preference Optimization]] ([[Вики/Direct Preference Optimization\|DPO]])** — метод обучения…
answerКак вы управляете качеством разметки (label quality) для DPO датасетов?
…chosen/rejected), без отдельной модели вознаграждения. [[Вики/dataset\|Датасет]] для [[Вики/Direct Preference Optimization\|DPO]] состоит из троек: ([[Вики/промпт…
answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?
…Ключевые подходы — [[Вики/Social choice aggregation\|social choice aggregation]] ([[Вики/aggregation\|агрегация]] предпочтений группы экспертов), [[Вики/preference distributions\|preference distributions…
wikiHugging Face TRL
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikiPairwise comparison
# Pairwise comparison ## Определение Метод сбора предпочтений, при котором аннотатор выбирает лучший из двух вариантов; основной механизм RLHF, снижающий субъективность по…
wikiSFT
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikigold standard
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
answerКак вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофического забывания?
…DPO вместо RLHF **[[Вики/Direct Preference Optimization\|DPO]] ([[Вики/Direct Preference Optimization\|Direct Preference Optimization]])** — метод, который напрямую оптимизирует политику…
answerКак работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)? ## Краткий тезис **Direct Preference Optimization (DPO)** — это метод выравнивания языковых…
answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…Adversarial примеры используются как негативные примеры. - **DPO (Direct Preference Optimization)** : альтернатива RLHF, где предпочтения (безопасный ответ > опасный) задаются напрямую. Adversarial…
answerКак вы делаете online RL для агентов (self-improvement loops)?
…Что такое preference data collection и как минимизировать bias в сравнениях\|333]] - Следующий: [[335. Как работает Direct Preference Optimization (DPO…
wikiWeights & Biases
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikiLangSmith
…Что такое preference data collection и как минимизировать bias в сравнениях|333. Что такое preference data collection и как минимизировать…
answerКак работает KL penalty в RLHF и как подобрать коэффициент?
…Что такое preference data collection и как минимизировать bias в сравнениях\|333]] | PPO в RLHF | | [[334. Как вы делаете online…
wikibias
…Как вы делаете data quality для синтетических датасетов|534. Как вы делаете data quality для синтетических датасетов]] - [[681. Как вы…
wikibaseline
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
answerКак вы деплоите policy (RLHF модель) в production с online feedback loop?
…Сформировать [[Вики/preference data collection\|preference dataset]] (пары ответов, где один предпочтительнее). 4. Обучить новую reward model или дообучить policy…