Поиск

  • answerЧто такое meta-evaluation бенчмарков (оценка оценки)?

    …0.60 -> бенчмарк неrobust ``` Интерпретация Если score падает более чем на 10–20% при минимальных изменениях, бенчмарк не измеряет истинное…

  • answerЧто такое meta-evaluation бенчмарков (оценка оценки)?

    …Что такое meta-evaluation бенчмарков (оценка оценки)? ## Краткий тезис [[Вики/meta-evaluation\|Meta-evaluation]] — это процесс оценки качества самих бенчмарков

  • wikibenchmark overfitting

    # benchmark overfitting ## Определение Ситуация, когда модели специально дообучаются на тестовых данных бенчмарка, завышая результаты. ## Где встречается - [[498. Что такое meta…

  • wikiitem difficulty distribution

    # item difficulty distribution ## Определение Распределение сложности вопросов в бенчмарке. Равномерное распределение является признаком качественного бенчмарка. ## Где встречается - [[498. Что такое…

  • wikimeta-evaluation

    # meta-evaluation ## Определение Процесс оценки качества самих бенчмарков: проверка валидности, устойчивости к переобучению и насыщения, чтобы убедиться, что бенчмарк измеряет…

  • answerЧто такое benchmark chasing и почему это опасно?

    …Решение — комбинировать несколько бенчмарков, внедрять собственный [[Вики/Evaluation\|evaluation]] на реальных данных, использовать [[Вики/dynamic benchmarks\|динамические бенчмарки]] и [[Вики…

  • wikibenchmark chasing

    # benchmark chasing ## Определение Оптимизация модели под конкретный бенчмарк, а не под реальную задачу; опасна переобучением и неэффективностью в production. ## Где…

  • wikisaturation gap

    # saturation gap ## Определение Разница между максимальным баллом среди моделей и 100% — показатель насыщения бенчмарка. ## Где встречается - [[498. Что такое meta…

  • wikicontent validity

    # content validity ## Определение Мера того, насколько задачи бенчмарка охватывают все аспекты измеряемого конструкта. ## Где встречается - [[498. Что такое meta-evaluation…

  • wikiмикро-бенчмарк

    # микро-бенчмарк ## Определение Изолированный тест производительности, измеряющий латентность или пропускную способность конкретного компонента системы, например, доступа к памяти. ## Где встречается…

  • wikialgbw

    # algbw ## Определение Алгоритмическая пропускная способность, измеряемая в бенчмарках (например, all_reduce_perf), включающая накладные расходы коммуникации. ## Где встречается - [[1. Развернуть…

  • wikiconfounding factors

    # confounding factors ## Определение Факторы, которые могут искажать результаты бенчмарка, не относясь к измеряемому конструкту. ## Где встречается - [[498. Что такое meta…

  • wikiRGB

    # RGB ## Определение Бенчмарк для оценки RAG-систем по критериям точности (faithfulness) и релевантности ответа. ## Где встречается - [[498. Что такое meta…

  • wikiKILT

    # KILT ## Определение Бенчмарк для оценки моделей на задачах, требующих внешних знаний, широко применяемый для оценки RAG-систем. ## Где встречается - [[498…

  • wikicriterion validity

    # criterion validity ## Определение Метод оценки бенчмарка, измеряющий корреляцию его результатов с внешним критерием реального качества (например, экспертная оценка). ## Где встречается…

  • wikiWebArena

    # WebArena ## Определение Бенчмарк для оценки многошаговых действий агентов в симулированной веб-среде. Позволяет измерять способность агентов выполнять сложные сценарии, например…

  • wikiall_reduce_perf

    # all_reduce_perf ## Определение Стандартный бенчмарк из набора nccl-tests для измерения пропускной способности и задержки операции all_reduce на…

  • wikiconstruct validity

    # construct validity ## Определение Степень, в которой бенчмарк или тест измеряет именно заявленное свойство (например, рассуждение), оцениваемая экспертами. ## Где встречается - [[498…

  • wikiWinoBias

    # WinoBias ## Определение Бенчмарк для оценки гендерных предубеждений в языковых моделях, состоящий из предложений с местоимениями, где модель должна правильно определить…

  • wikiMLPerf Inference

    # MLPerf Inference ## Определение Промышленный бенчмарк для измерения производительности инференса ML-моделей по метрикам латентности и пропускной способности (throughput). ## Где встречается…

  • wikiZeroSCROLLS

    # ZeroSCROLLS ## Определение Бенчмарк для оценки способности модели понимать длинные документы (книги, научные статьи). Включает задачи извлечения информации, ответов на вопросы…

  • wikiKendall's τ

    …Применяется для оценки качества reward model в RLHF вне стандартных бенчмарков. ## Где встречается - [[331. Как вы измеряете quality RLHF модели…

  • wikidomain expert

    # domain expert ## Определение Специалист в предметной области, привлекаемый для создания бенчмарков, таксономий задач и валидации заданий при оценке моделей в…

  • wikiBIG-bench

    # BIG-bench ## Определение Набор бенчмарков для оценки LLM, включающий задачи на креативность и проверку construct validity модели. ## Где встречается - [[172…

  • wikihuman baseline

    …Обычно представляет собой экспертные ответы на задачи бенчмарка. ## Где встречается - [[341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция…

  • wikiLong-context capability

    …Тестируется с помощью специальных бенчмарков, таких как RULER и 'Needle in a Haystack'. ## Где встречается - [[627. Как вы тестируете long…

  • wikiAgentBench

    # AgentBench ## Определение Бенчмарк для оценки LLM-агентов в 8 средах (web, CLI, SQL и др.), подверженный проблемам construct validity и…

  • wikiBBQ

    # BBQ ## Определение Бенчмарк для измерения стереотипов и предвзятости в языковых моделях, используется для оценки bias amplification после RLAIF. ## Где встречается…

  • wikiOpenAI Evals

    # OpenAI Evals ## Определение Набор стандартизированных бенчмарков и фреймворк для создания кастомных бенчмарков с поддержкой LLM-судей, используется для оценки качества…

  • wikitask taxonomy

    # task taxonomy ## Определение Иерархическая классификация типов задач (task tree), разрабатываемая экспертами для структурирования бенчмарка. Обеспечивает покрытие всех сценариев использования и…

  • wikiPearson correlation

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[800+ вопросов|800+ вопросов]] - [[30…

  • wikilm-evaluation-harness

    # lm-evaluation-harness ## Определение Инструмент EleutherAI для унифицированного запуска бенчмарков, сбора статистики и проверки contamination при оценке LLM. ## Где встречается…

  • wikibenchmark task generation

    # benchmark task generation ## Определение Генерация заданий (LLM + проверка) для бенчмарка. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…

  • wikidynamic benchmark

    # dynamic benchmark ## Определение Бенчмарк, который меняется со временем (например, автоматическая генерация новых вопросов) для уменьшения риска утечки тестовых данных (contamination…

  • wikinccl-tests

    # nccl-tests ## Определение Набор бенчмарков для измерения пропускной способности и задержки коллективных операций NCCL, включая all_reduce_perf. ## Где встречается…

  • wikiNCCL_NCHANNELS

    …Развернуть NCCL бенчмарк на 2-8 GPU|1. Развернуть NCCL бенчмарк на 2-8 GPU]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiSama

    …Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)|341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)]] ## Навигация…

  • wikishortcuts

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • answerКак вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?

    …Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)? ## Краткий тезис Проектирование бенчмарка для нового домена требует системного подхода: сначала…

  • wikiLongBench

    # LongBench ## Определение Бенчмарк из 21 задачи (QA, суммаризация, few-shot learning) с длиной контекста от 5k до 15k токенов для…

  • wikistep completion

    …Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)|341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)]] ## Навигация…

  • wikiVicuna benchmark

    # Vicuna benchmark ## Определение Бенчмарк для оценки качества диалоговых моделей, основанный на сравнении ответов с эталонными. ## Где встречается - [[24. Какой размер…

  • wikiadversarial filtering

    …Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiCollNet

    …Развернуть NCCL бенчмарк на 2-8 GPU|1. Развернуть NCCL бенчмарк на 2-8 GPU]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiEvaluator

    …Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…

  • wikiCDNA3

    …Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…

  • wikiNVLink 5.0

    …Развернуть NCCL бенчмарк на 2-8 GPU|1. Развернуть NCCL бенчмарк на 2-8 GPU]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikitopology

    …Развернуть NCCL бенчмарк на 2-8 GPU|1. Развернуть NCCL бенчмарк на 2-8 GPU]] - [[8. Настроить InfiniBand partition keys…

  • wikiLLM-классификатор

    …Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)|341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)]] ## Навигация…

  • wikiPrometheus-2

    …Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)|331. Как вы измеряете quality RLHF модели вне стандартных…