Поиск

  • wikimultiple judges

    …Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)]] - [[486. Почему LLM-as-Judge может…

  • wikiswap-test

    # swap-test ## Определение Метод детекции position bias в LLM-as-Judge с помощью перестановки ответов и сравнения оценок. ## Где встречается…

  • wikistyle bias

    # style bias ## Определение Склонность модели-оценщика (LLM-as-judge) предпочитать ответы, оформленные в определённом стиле (например, формальном или структурированном), что…

  • wikiVerbosity bias

    # Verbosity bias ## Определение Систематическая ошибка LLM-as-Judge, при которой более длинные ответы оцениваются выше, даже если они менее информативны…

  • wikiPosition bias

    # Position bias ## Определение Склонность LLM-as-Judge предпочитать ответы в определённой позиции (например, первый в паре), что искажает оценку; детектируется…

  • wikiLLM-as-Judge

    # LLM-as-Judge ## Определение Подход к оценке ответов LLM с использованием другой языковой модели в качестве судьи. Склонен к bias…

  • wikiUltraFeedback

    …Применяется как альтернатива Chatbot Arena для калибровки LLM-as-Judge. ## Где встречается - [[277. Реализовать LLM-as-Judge с калибровкой|277…

  • wikiMT-Bench

    …Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge

  • wikiBias Rate

    # Bias Rate ## Определение Метрика, показывающая долю случаев, когда судья выбирает ответ на первой позиции после swap при LLM-as-Judge

  • wikiRandom swap

    …Что такое Positional bias в LLM-as-Judge и как его исправить|493. Что такое Positional bias в LLM-as

  • wikiWeighted Kappa

    …Реализовать LLM-as-Judge с калибровкой|277. Реализовать LLM-as-Judge с калибровкой]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiCalibration

    …Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge

  • wikiCOMET

    …Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] ## Навигация…

  • wikiCohen's Kappa

    …Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge

  • wikiFamiliarity bias

    …Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge

  • wikiPreference tuning

    …Что такое Positional bias в LLM-as-Judge и как его исправить|493. Что такое Positional bias в LLM-as

  • wikicalibration error

    …Как работает LLM-as-judge и почему он biased|870. Как работает LLM-as-judge и почему он biased]] - [[81…

  • wikiDownstream quality

    …Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…

  • wikiDeBERTa-v3

    …Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] - [[800…

  • wikiinter-judge agreement

    …Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…

  • wikiSelfCheckGPT

    …Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] - [[175…

  • wikiself-judge

    …Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)|343. Как вы измеряете и исправляете…

  • wikihuman judgments

    …Реализовать LLM-as-Judge с калибровкой|277. Реализовать LLM-as-Judge с калибровкой]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiCausal attention

    …Что такое Positional bias в LLM-as-Judge и как его исправить|493. Что такое Positional bias в LLM-as

  • wikirubric-based evaluation

    …Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)|343. Как вы измеряете и исправляете…

  • wikiCorrelation analysis

    …Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge

  • wikiaggregation

    …Что такое Positional bias в LLM-as-Judge и как его исправить|493. Что такое Positional bias в LLM-as

  • wikiNLI model

    …Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] ## Навигация…

  • wikiSpearman correlation

    …Как работает LLM-as-judge и почему он biased|870. Как работает LLM-as-judge и почему он biased]] - [[800…

  • wikipost-hoc correction

    …Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)|343. Как вы измеряете и исправляете…

  • wikiContext Recall

    …Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] - [[341…

  • wikiFleiss' Kappa

    …Реализовать LLM-as-Judge с калибровкой|277. Реализовать LLM-as-Judge с калибровкой]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiConfusion matrix

    …Реализовать LLM-as-Judge с калибровкой|277. Реализовать LLM-as-Judge с калибровкой]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiBERTscore

    …Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] - [[174…

  • wikiLMSys Chatbot Arena

    …Реализовать LLM-as-Judge с калибровкой|277. Реализовать LLM-as-Judge с калибровкой]] - [[284. Настроить pairwise evaluation для моделей|284…

  • wikiseed

    …Как вы оцениваете качество синтетических данных (Self-consistency, LLM-as-Judge)|682. Как вы оцениваете качество синтетических данных (Self-consistency…

  • answerКак работает LLM-as-judge и почему он biased?

    …Как работает LLM-as-judge и почему он biased? ## Краткий тезис [[Вики/LLM-as-Judge\|LLM-as-judge]] — это парадигма…

  • answerКак вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge)

    LLM-as-Judge **[[Вики/LLM-as-a-judge\|LLM-as-Judge]]** — использование сильной [[Вики/GPT-4o\|LLM]] ([[Вики/gpt-3…

  • wikiPrompt engineering

    …Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge

  • wikiLLM-as-a-judge

    …Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] - [[134…

  • wikiproxy-модель

    # proxy-модель ## Определение Модель, заменяющая медленный LLM-as-judge для ускорения оценки. ## Где встречается - [[169. Реализовать rollback промпта|169. Реализовать…

  • wikiAlpacaEval

    …Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge

  • answerАльтернативы LLM-as-Judge — назовите 3 и их ограничения?

    …Альтернативы LLM-as-Judge — назовите 3 и их ограничения? ## Краткий тезис [[Вики/LLM-as-a-judge\|LLM-as-Judge]] — мощный…

  • wikiHuman labels

    # Human labels ## Определение Эталонные оценки от людей, используемые для калибровки LLM-as-Judge и детекции смещений. ## Где встречается - [[800+ вопросов…

  • wikipytest-langchain

    # pytest-langchain ## Определение Пакет для интеграции LangChain с pytest, предоставляющий утилиты для оценки LLM-ответов (llm-as-judge). Упрощает тестирование…

  • wikiPlan quality

    # Plan quality ## Определение Оценка правильности декомпозиции задачи на подзадачи, выполняемая экспертом или LLM-as-judge. ## Где встречается - [[575. Как работает…

  • wikiSwap

    …Что такое Positional bias в LLM-as-Judge и как его исправить|493. Что такое Positional bias в LLM-as

  • wikiPairwise comparison

    …Почему LLM-as-Judge может быть biased Назовите 3 основных bias и как их детектировать.|486. Почему LLM-as-Judge

  • wikiContext precision

    …Альтернативы LLM-as-Judge — назовите 3 и их ограничения.|133. Альтернативы LLM-as-Judge — назовите 3 и их ограничения.]] - [[134…

  • wikiposition bias ratio

    # position bias ratio ## Определение Доля случаев, когда LLM-as-Judge выбирает первый вариант в паре; показатель наличия position bias, используется…