Поиск
- wikimultiple judges
…Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)]] - [[486. Почему LLM-as-Judge может…
- wikiswap-test
# swap-test ## Определение Метод детекции position bias в LLM-as-Judge с помощью перестановки ответов и сравнения оценок. ## Где встречается…
- wikistyle bias
# style bias ## Определение Склонность модели-оценщика (LLM-as-judge) предпочитать ответы, оформленные в определённом стиле (например, формальном или структурированном), что…
- wikiVerbosity bias
# Verbosity bias ## Определение Систематическая ошибка LLM-as-Judge, при которой более длинные ответы оцениваются выше, даже если они менее информативны…
- wikiPosition bias
# Position bias ## Определение Склонность LLM-as-Judge предпочитать ответы в определённой позиции (например, первый в паре), что искажает оценку; детектируется…
- wikiLLM-as-Judge
# LLM-as-Judge ## Определение Подход к оценке ответов LLM с использованием другой языковой модели в качестве судьи. Склонен к bias…
- wikiUltraFeedback
…Применяется как альтернатива Chatbot Arena для калибровки LLM-as-Judge. ## Где встречается - [[277. Реализовать LLM-as-Judge с калибровкой|277…
- wikiMT-Bench
…Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge…
- wikiBias Rate
# Bias Rate ## Определение Метрика, показывающая долю случаев, когда судья выбирает ответ на первой позиции после swap при LLM-as-Judge…
- wikiRandom swap
…Что такое Positional bias в LLM-as-Judge и как его исправить|493. Что такое Positional bias в LLM-as…
- wikiWeighted Kappa
…Реализовать LLM-as-Judge с калибровкой|277. Реализовать LLM-as-Judge с калибровкой]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiCalibration
…Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge…
- wikiCOMET
…Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] ## Навигация…
- wikiCohen's Kappa
…Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge…
- wikiFamiliarity bias
…Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge…
- wikiPreference tuning
…Что такое Positional bias в LLM-as-Judge и как его исправить|493. Что такое Positional bias в LLM-as…
- wikicalibration error
…Как работает LLM-as-judge и почему он biased|870. Как работает LLM-as-judge и почему он biased]] - [[81…
- wikiDownstream quality
…Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…
- wikiDeBERTa-v3
…Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] - [[800…
- wikiinter-judge agreement
…Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…
- wikiSelfCheckGPT
…Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] - [[175…
- wikiself-judge
…Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)|343. Как вы измеряете и исправляете…
- wikihuman judgments
…Реализовать LLM-as-Judge с калибровкой|277. Реализовать LLM-as-Judge с калибровкой]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiCausal attention
…Что такое Positional bias в LLM-as-Judge и как его исправить|493. Что такое Positional bias в LLM-as…
- wikirubric-based evaluation
…Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)|343. Как вы измеряете и исправляете…
- wikiCorrelation analysis
…Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge…
- wikiaggregation
…Что такое Positional bias в LLM-as-Judge и как его исправить|493. Что такое Positional bias в LLM-as…
- wikiNLI model
…Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] ## Навигация…
- wikiSpearman correlation
…Как работает LLM-as-judge и почему он biased|870. Как работает LLM-as-judge и почему он biased]] - [[800…
- wikipost-hoc correction
…Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)|343. Как вы измеряете и исправляете…
- wikiContext Recall
…Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] - [[341…
- wikiFleiss' Kappa
…Реализовать LLM-as-Judge с калибровкой|277. Реализовать LLM-as-Judge с калибровкой]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiConfusion matrix
…Реализовать LLM-as-Judge с калибровкой|277. Реализовать LLM-as-Judge с калибровкой]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiBERTscore
…Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] - [[174…
- wikiLMSys Chatbot Arena
…Реализовать LLM-as-Judge с калибровкой|277. Реализовать LLM-as-Judge с калибровкой]] - [[284. Настроить pairwise evaluation для моделей|284…
- wikiseed
…Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…
- answerКак работает LLM-as-judge и почему он biased?
…Как работает LLM-as-judge и почему он biased? ## Краткий тезис [[Вики/LLM-as-Judge\|LLM-as-judge]] — это парадигма…
- answerКак вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge)
…LLM-as-Judge **[[Вики/LLM-as-a-judge\|LLM-as-Judge]]** — использование сильной [[Вики/GPT-4o\|LLM]] ([[Вики/gpt-3…
- wikiPrompt engineering
…Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge…
- wikiLLM-as-a-judge
…Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] - [[134…
- wikiproxy-модель
# proxy-модель ## Определение Модель, заменяющая медленный LLM-as-judge для ускорения оценки. ## Где встречается - [[169. Реализовать rollback промпта|169. Реализовать…
- wikiAlpacaEval
…Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge…
- answerАльтернативы LLM-as-Judge — назовите 3 и их ограничения?
…Альтернативы LLM-as-Judge — назовите 3 и их ограничения? ## Краткий тезис [[Вики/LLM-as-a-judge\|LLM-as-Judge]] — мощный…
- wikiHuman labels
# Human labels ## Определение Эталонные оценки от людей, используемые для калибровки LLM-as-Judge и детекции смещений. ## Где встречается - [[800+ вопросов…
- wikipytest-langchain
# pytest-langchain ## Определение Пакет для интеграции LangChain с pytest, предоставляющий утилиты для оценки LLM-ответов (llm-as-judge). Упрощает тестирование…
- wikiPlan quality
# Plan quality ## Определение Оценка правильности декомпозиции задачи на подзадачи, выполняемая экспертом или LLM-as-judge. ## Где встречается - [[575. Как работает…
- wikiSwap
…Что такое Positional bias в LLM-as-Judge и как его исправить|493. Что такое Positional bias в LLM-as…
- wikiPairwise comparison
…Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge…
- wikiContext precision
…Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] - [[134…
- wikiposition bias ratio
# position bias ratio ## Определение Доля случаев, когда LLM-as-Judge выбирает первый вариант в паре; показатель наличия position bias, используется…