Поиск

wikiкалибровка модели IRT
# калибровка модели IRT ## Определение Процесс оценивания параметров вопросов (a, b, c) и способностей моделей (θ) с помощью MLE или байесовского…
wikiCalibration
# Calibration ## Определение Процесс приведения предсказанных вероятностей модели в соответствие с истинной частотой событий, а также настройка LLM-судьи для приближения…
answerЧто такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)?
…Для задач классификации [[Вики/Calibration\|калибровка]] обычно рассматривается для предсказанных вероятностей целевого класса. В [[Вики/LLM\|LLM]] [[Вики/Calibration\|калибровка…
answerЧто такое calibration в контексте reward model для RLHF?
…Что такое калибровка вероятностей? [[Вики/Calibration\|Калибровка]] — это [[Вики/Invariant\|свойство]] модели, при котором для всех предсказаний с уверенностью *p…
wikiranking
# ranking ## Определение Задача упорядочивания объектов по предпочтению; в контексте RLHF важна не калибровка, а относительный порядок для обучения reward model…
wikiclassification
# classification ## Определение Classification — тип задачи, где LLM присваивает входу одну из нескольких категорий; для получения корректных уверенностей требуется калибровка выходных…
wikiannotator calibration
# annotator calibration ## Определение Предварительное согласование правил разметки на нескольких примерах для обеспечения единообразия аннотаций. ## Где встречается - [[146. Реализовать golden dataset…
wikiCalibration RM
# Calibration RM ## Определение Обучение reward model предсказывать калиброванные вероятности, например через Platt scaling, для уменьшения reward hacking. ## Где встречается - [[329…
answerКак вы калибруете retrieval confidence для threshold-based filtering?
…retrieval confidence, threshold-based filtering, калибровка [[Вики/confidence score\|Retrieval confidence]] — это [[Вики/Evaluation\|score]], который retrieval-модель (например, на…
wikiLLM calibration
# LLM calibration ## Определение Настройка уверенности модели так, чтобы она соответствовала фактической точности; измеряется метриками ECE, MCE, Brier score. ## Где встречается…
answerЧто такое calibration для LLM и как её измерять (ECE)?
…Calibration (калибровка) [[Вики/Quantization\|Калибровка модели]] — это мера того, насколько хорошо прогнозируемые [[Вики/probabilities\|вероятности]] соответствуют истинным частотам событий. Например…
answerЧто такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)?
…Calibration (калибровка) [[Вики/Calibration\|Калибровка]] ([[Вики/Quantization\|calibration]]) — это [[Вики/consistency\|согласованность]] между предсказанной моделью вероятностью и фактической частотой правильных…
wikiPost-hoc Calibration
# Post-hoc Calibration ## Определение Методы калибровки вероятностей после обучения модели (Temperature Scaling, Platt Scaling), улучшающие калибровку на валидационном наборе. ## Где…
answerКак вы калибруете вероятности LLM для classification задач?
…Калибровка вероятностей (Probability Calibration) [[Вики/Calibration\|Калибровка]] — это [[Вики/Invariant\|свойство]] модели, при котором из предсказанной [[Вики/probabilities\|вероятности]] 0…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать LLM-as-Judge с калибровкой
…Итеративная калибровка промпта (оценка времени: 2.5 часа) Действия 1. Составить пул вариаций промпта (не менее 5). Примеры изменений: - Добавить…
answerКак вы калибруете LLM-судью под человеческие оценки?
…Как вы калибруете LLM-судью под человеческие оценки? ## Краткий тезис [[Вики/Quantization\|Калибровка LLM-судьи]] — это процесс настройки промпта, параметров…
wikiPlatt scaling
# Platt scaling ## Определение Метод калибровки вероятностей через логистическую регрессию на валидационных данных, применяемый к логитам LLM для устранения overconfidence. ## Где…
answerКак вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)?
…калибровка с human judgments [[Вики/Calibration\|Калибровка]] — процесс сравнения оценок LLM-судьи с оценками человека на золотом стандарте ([[Вики/gold…
answerКак вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)?
…Калибровка uncertainty Измеренная uncertainty не всегда соответствует истинной вероятности ошибки. [[Вики/Calibration\|Калибровка]] (calibration) — процесс приведения confidence scores в соответствие…
answerКак вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)?
…модель может быть уверена в неверном ответе (плохая калибровка). ### 2.2 Entropy (энтропия) Энтропия распределения вероятностей по словарю: ``` H = - Σ…
answerЧто такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?
…Для каждого вопроса известно, [[Вики/gold standard\|правильный ответ]] или нет (бинарная [[Вики/tag\|метка]]). ### 4.2 Калибровка модели IRT…
answerЧто такое pairwise comparison vs scalar rating? Когда что использовать?
…таблица решений | Критерий | Pairwise comparison | Scalar rating | |----------|---------------------|---------------| | Цель | Исследование, калибровка, построение рейтинга | Быстрый сбор обратной связи в продакшне | | Количество вариантов…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с human-in-the-loop — эскалация человеку при low confidence
…Тестирование, калибровка порога и измерение метрик (2 часа) Действия 1. **Собрать [[Вики/eval set\|тестовый набор]] из 200–500 запросов…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…FP8 инференс (калибровка + замеры) | 2–3 ч | | Этап 4: Оптимизация до 2x | 2–3 ч | | Этап 5: Оформление результатов | 30…
answerКак работает FP8 quantization на H100 (Transformer Engine)?
…Низкая (автоматизация) | | INT8 | 8 бит целых | ~2× | Средняя (калибровка) | Средняя (нужна калибровка) | | INT4 | 4 бита | ~4× | Низкая | Высокая (требуется квантование…
answerКаковы 3 главных bias-эффекта LLM-as-Judge и как их детектировать?
…анализ распределения оценок, сравнение с эталонными судьями (человек или другая модель), калибровка. --- ## 6. Методы детекции и коррекции bias ### 6.1…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Спроектировать uncertainty UI
…оценка – истинная правильность (калибровка). - Время на оценку (опционально). Ожидаемый результат этапа Таблица с данными тестирования (CSV), записанные комментарии участников. --- ### Этап…
answerКак проектировать golden dataset для agent evaluation?
…2. [[Вики/Calibration\|Калибровка]] — первые 30 примеров размечаются всеми аннотаторами совместно, обсуждаются расхождения. 3. Основная [[Вики/Label quality\|разметка]] — каждый…
answerЧто такое reward correlation и как ее измерять?
…AUC > 0.8 считается хорошим. ### 5.3 Calibration (калибровка) Даже при высокой корреляции reward model может быть плохо откалибрована: разница…
answerКак работает LLM-as-judge и почему он biased?
…Понимание этих biases и методов их смягчения ([[Вики/Random\|random]] [[Вики/Swap\|swap]], [[Вики/Calibration\|калибровка]], ансамблирование) критически важно для…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать delegation by exception
…или PostgreSQL | Логирование попыток и делегирований | | Метрики уверенности | `logprobs`, калибровка через temperature scaling, отдельный LLM-промпт | Вычисление score уверенности | | Интерфейс…
answerЧто такое preference data collection и как минимизировать bias в сравнениях?
…Использовать прогресс-бар и предупреждения об усталости. ### 4.3 Калибровка аннотаторов Перед началом работы аннотаторы проходят обучающую сессию с «золотыми…
answerЧто такое Positional bias в LLM-as-Judge и как его исправить?
…Calibration (калибровка) Идея Обучить или дообучить модель-судью на специальном датасете swap-примеров, чтобы она научилась игнорировать позицию. Подходы - [[Вики…
answerGGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска?
…Минусы: - Не работает на CPU. - Меньше предварительно квантизованных моделей, чем у GGUF/GPTQ (но быстро растёт). - Калибровка требует небольшого датасета…
answerКак вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge)
…к вопросу) Верни только число от 1 до 10. ``` ### Калибровка LLM-as-Judge - Использовать [[Вики/reasoning steps\|chain-of-thought…
wikiQuantization
# Quantization ## Определение Снижение точности представления чисел (весов или активаций) модели для уменьшения её размера и ускорения инференса. Применяется как для…
answerКак работает tensor parallelism с FP8 в vLLM?
…Проблемы и ограничения Проблемы - [[Вики/Calibration\|Калибровка]] Для FP8 нужны scaling factors, которые подбираются на калибровочном датасете. Если данные отличаются…
answerКак вы проверяете, что новая версия модели не сломала старые кейсы?
…Чтобы снизить [[Вики/Noise\|шум]]: - [[Вики/Calibration\|Калибровка]] порогов на исторических данных подбирается [[Вики/threshold\|порог]], при котором [[Вики/false…
answerКак вы делаете агента, который может «просить помощи» у другого агента или человека?
…Если агент говорит «уверен на 0.9», но ошибается в 30% случаев — калибровка плохая. Исправляется с помощью **temperature scaling** или…
answerЧто такое IRT (Item Response Theory) и как она применяется к LLM эвалюации?
…ROUGE\|ROUGE]], [[Вики/BLEU\|BLEU]]) с порогом. [[Вики/Calibration\|Калибровка]] бенчмарка - После оценки β можно удалить вопросы с экстремальной сложностью…
answerКак вы оцениваете faithfulness RAG-ответа в production автоматически?
…2. [[Вики/Calibration\|Калибровка]]: протестируйте на 100–200 вручную размеченных примерах, подберите порог. 3. [[Вики/AB testing\|A/B тестирование…
answerКак вы проектируете red teaming evaluation для jailbreak устойчивости?
…эксперты проверяют, не отказывается ли модель отвечать на безопасные запросы (например, «Как приготовить яичницу?» — отказ здесь — это over-refusal). - Калибровка…
answerКак сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?
…Сравнительная таблица методов | Метод | Формат | Память (70B) | Качество (% от FP16) | Скорость (GPU) | Скорость (CPU) | Калибровка | Когда использовать | |-------|--------|--------------|----------------------|----------------|----------------|------------|-------------------| | FP16 (baseline) | 16…
answerКак вы измеряете inter-rater reliability для human evaluation?
…Вики/Evaluation\|оценка]] креативности, юмора, тона - Недостаточная [[Вики/Calibration\|калибровка]] аннотаторы не обсуждали спорные случаи Методы улучшения 1. [[Вики/iterative…
answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?
…хочет консервативный совет; - 30% — агрессивный; - 10% — этичный. [[Вики/Calibration\|Калибровка]] — [[Вики/Invariant\|свойство]], при котором предсказанные [[Вики/probabilities\|вероятности]] соответствуют…
answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…FP8 и FP4 могут приводить к потере качества, если не использовать техники квантизации (калибровка, clipping). Transformer Engine в H100/B200…
answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?
…разные аннотаторы по-разному интерпретируют градации (что для одного «4», для другого «3»). - [[Вики/Calibration\|Калибровка]]: сложно обеспечить единый стандарт…
answerЧто такое FP8 инференс на H100 (Transformer Engine)?
…более 1% (если используется FP8-aware fine-tuning или калибровка). [[Вики/Expansion\|Расширение]] Попробовать FP8-aware fine-tuning (QAT) с…
answerКак делать pairwise ranking для сравнения моделей?
…Недостатки: | Проблема | Описание | |----------|----------| | Разная калибровка | Один аннотатор ставит «4», другой тому же ответу — «5» | | [[Вики/Central tendency\|Центральная тенденция]] | Аннотаторы…
answerКак вы оцениваете качество генерации в RAG? Назовите 3 ключевые метрики.
…Как вы уменьшаете галлюцинации в RAG\|17]] | Уменьшение галлюцинаций (faithfulness) | | 131-140 | LLM-as-Judge подробно (bias, калибровка) | | [[134. Как…