Поиск
- answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…0.60 -> бенчмарк неrobust ``` Интерпретация Если score падает более чем на 10–20% при минимальных изменениях, бенчмарк не измеряет истинное…
- answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…Что такое meta-evaluation бенчмарков (оценка оценки)? ## Краткий тезис [[Вики/meta-evaluation\|Meta-evaluation]] — это процесс оценки качества самих бенчмарков…
- wikibenchmark overfitting
# benchmark overfitting ## Определение Ситуация, когда модели специально дообучаются на тестовых данных бенчмарка, завышая результаты. ## Где встречается - [[498. Что такое meta…
- wikiitem difficulty distribution
# item difficulty distribution ## Определение Распределение сложности вопросов в бенчмарке. Равномерное распределение является признаком качественного бенчмарка. ## Где встречается - [[498. Что такое…
- wikimeta-evaluation
# meta-evaluation ## Определение Процесс оценки качества самих бенчмарков: проверка валидности, устойчивости к переобучению и насыщения, чтобы убедиться, что бенчмарк измеряет…
- answerЧто такое benchmark chasing и почему это опасно?
…Решение — комбинировать несколько бенчмарков, внедрять собственный [[Вики/Evaluation\|evaluation]] на реальных данных, использовать [[Вики/dynamic benchmarks\|динамические бенчмарки]] и [[Вики…
- wikibenchmark chasing
# benchmark chasing ## Определение Оптимизация модели под конкретный бенчмарк, а не под реальную задачу; опасна переобучением и неэффективностью в production. ## Где…
- wikisaturation gap
# saturation gap ## Определение Разница между максимальным баллом среди моделей и 100% — показатель насыщения бенчмарка. ## Где встречается - [[498. Что такое meta…
- wikicontent validity
# content validity ## Определение Мера того, насколько задачи бенчмарка охватывают все аспекты измеряемого конструкта. ## Где встречается - [[498. Что такое meta-evaluation…
- wikiмикро-бенчмарк
# микро-бенчмарк ## Определение Изолированный тест производительности, измеряющий латентность или пропускную способность конкретного компонента системы, например, доступа к памяти. ## Где встречается…
- wikialgbw
# algbw ## Определение Алгоритмическая пропускная способность, измеряемая в бенчмарках (например, all_reduce_perf), включающая накладные расходы коммуникации. ## Где встречается - [[1. Развернуть…
- wikiconfounding factors
# confounding factors ## Определение Факторы, которые могут искажать результаты бенчмарка, не относясь к измеряемому конструкту. ## Где встречается - [[498. Что такое meta…
- wikiRGB
# RGB ## Определение Бенчмарк для оценки RAG-систем по критериям точности (faithfulness) и релевантности ответа. ## Где встречается - [[498. Что такое meta…
- wikiKILT
# KILT ## Определение Бенчмарк для оценки моделей на задачах, требующих внешних знаний, широко применяемый для оценки RAG-систем. ## Где встречается - [[498…
- wikicriterion validity
# criterion validity ## Определение Метод оценки бенчмарка, измеряющий корреляцию его результатов с внешним критерием реального качества (например, экспертная оценка). ## Где встречается…
- wikiWebArena
# WebArena ## Определение Бенчмарк для оценки многошаговых действий агентов в симулированной веб-среде. Позволяет измерять способность агентов выполнять сложные сценарии, например…
- wikiall_reduce_perf
# all_reduce_perf ## Определение Стандартный бенчмарк из набора nccl-tests для измерения пропускной способности и задержки операции all_reduce на…
- wikiconstruct validity
# construct validity ## Определение Степень, в которой бенчмарк или тест измеряет именно заявленное свойство (например, рассуждение), оцениваемая экспертами. ## Где встречается - [[498…
- wikiWinoBias
# WinoBias ## Определение Бенчмарк для оценки гендерных предубеждений в языковых моделях, состоящий из предложений с местоимениями, где модель должна правильно определить…
- wikiMLPerf Inference
# MLPerf Inference ## Определение Промышленный бенчмарк для измерения производительности инференса ML-моделей по метрикам латентности и пропускной способности (throughput). ## Где встречается…
- wikiZeroSCROLLS
# ZeroSCROLLS ## Определение Бенчмарк для оценки способности модели понимать длинные документы (книги, научные статьи). Включает задачи извлечения информации, ответов на вопросы…
- wikiKendall's τ
…Применяется для оценки качества reward model в RLHF вне стандартных бенчмарков. ## Где встречается - [[331. Как вы измеряете quality RLHF модели…
- wikidomain expert
# domain expert ## Определение Специалист в предметной области, привлекаемый для создания бенчмарков, таксономий задач и валидации заданий при оценке моделей в…
- wikiBIG-bench
# BIG-bench ## Определение Набор бенчмарков для оценки LLM, включающий задачи на креативность и проверку construct validity модели. ## Где встречается - [[172…
- wikihuman baseline
…Обычно представляет собой экспертные ответы на задачи бенчмарка. ## Где встречается - [[341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция…
- wikiLong-context capability
…Тестируется с помощью специальных бенчмарков, таких как RULER и 'Needle in a Haystack'. ## Где встречается - [[627. Как вы тестируете long…
- wikiAgentBench
# AgentBench ## Определение Бенчмарк для оценки LLM-агентов в 8 средах (web, CLI, SQL и др.), подверженный проблемам construct validity и…
- wikiBBQ
# BBQ ## Определение Бенчмарк для измерения стереотипов и предвзятости в языковых моделях, используется для оценки bias amplification после RLAIF. ## Где встречается…
- wikiOpenAI Evals
# OpenAI Evals ## Определение Набор стандартизированных бенчмарков и фреймворк для создания кастомных бенчмарков с поддержкой LLM-судей, используется для оценки качества…
- wikitask taxonomy
# task taxonomy ## Определение Иерархическая классификация типов задач (task tree), разрабатываемая экспертами для структурирования бенчмарка. Обеспечивает покрытие всех сценариев использования и…
- wikiPearson correlation
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[800+ вопросов|800+ вопросов]] - [[30…
- wikilm-evaluation-harness
# lm-evaluation-harness ## Определение Инструмент EleutherAI для унифицированного запуска бенчмарков, сбора статистики и проверки contamination при оценке LLM. ## Где встречается…
- wikibenchmark task generation
# benchmark task generation ## Определение Генерация заданий (LLM + проверка) для бенчмарка. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…
- wikidynamic benchmark
# dynamic benchmark ## Определение Бенчмарк, который меняется со временем (например, автоматическая генерация новых вопросов) для уменьшения риска утечки тестовых данных (contamination…
- wikinccl-tests
# nccl-tests ## Определение Набор бенчмарков для измерения пропускной способности и задержки коллективных операций NCCL, включая all_reduce_perf. ## Где встречается…
- wikiNCCL_NCHANNELS
…Развернуть NCCL бенчмарк на 2-8 GPU|1. Развернуть NCCL бенчмарк на 2-8 GPU]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiSama
…Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)|341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)]] ## Навигация…
- wikishortcuts
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
- answerКак вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
…Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)? ## Краткий тезис Проектирование бенчмарка для нового домена требует системного подхода: сначала…
- wikiLongBench
# LongBench ## Определение Бенчмарк из 21 задачи (QA, суммаризация, few-shot learning) с длиной контекста от 5k до 15k токенов для…
- wikistep completion
…Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)|341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)]] ## Навигация…
- wikiVicuna benchmark
# Vicuna benchmark ## Определение Бенчмарк для оценки качества диалоговых моделей, основанный на сравнении ответов с эталонными. ## Где встречается - [[24. Какой размер…
- wikiadversarial filtering
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiCollNet
…Развернуть NCCL бенчмарк на 2-8 GPU|1. Развернуть NCCL бенчмарк на 2-8 GPU]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiEvaluator
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
- wikiCDNA3
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
- wikiNVLink 5.0
…Развернуть NCCL бенчмарк на 2-8 GPU|1. Развернуть NCCL бенчмарк на 2-8 GPU]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikitopology
…Развернуть NCCL бенчмарк на 2-8 GPU|1. Развернуть NCCL бенчмарк на 2-8 GPU]] - [[8. Настроить InfiniBand partition keys…
- wikiLLM-классификатор
…Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)|341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)]] ## Навигация…
- wikiPrometheus-2
…Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)|331. Как вы измеряете quality RLHF модели вне стандартных…