Поиск

answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…0.60 -> бенчмарк неrobust ``` Интерпретация Если score падает более чем на 10–20% при минимальных изменениях, бенчмарк не измеряет истинное…
answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…Что такое meta-evaluation бенчмарков (оценка оценки)? ## Краткий тезис [[Вики/meta-evaluation\|Meta-evaluation]] — это процесс оценки качества самих бенчмарков…
wikibenchmark overfitting
# benchmark overfitting ## Определение Ситуация, когда модели специально дообучаются на тестовых данных бенчмарка, завышая результаты. ## Где встречается - [[498. Что такое meta…
wikiitem difficulty distribution
# item difficulty distribution ## Определение Распределение сложности вопросов в бенчмарке. Равномерное распределение является признаком качественного бенчмарка. ## Где встречается - [[498. Что такое…
wikimeta-evaluation
# meta-evaluation ## Определение Процесс оценки качества самих бенчмарков: проверка валидности, устойчивости к переобучению и насыщения, чтобы убедиться, что бенчмарк измеряет…
answerЧто такое benchmark chasing и почему это опасно?
…Решение — комбинировать несколько бенчмарков, внедрять собственный [[Вики/Evaluation\|evaluation]] на реальных данных, использовать [[Вики/dynamic benchmarks\|динамические бенчмарки]] и [[Вики…
wikibenchmark chasing
# benchmark chasing ## Определение Оптимизация модели под конкретный бенчмарк, а не под реальную задачу; опасна переобучением и неэффективностью в production. ## Где…
wikisaturation gap
# saturation gap ## Определение Разница между максимальным баллом среди моделей и 100% — показатель насыщения бенчмарка. ## Где встречается - [[498. Что такое meta…
wikicontent validity
# content validity ## Определение Мера того, насколько задачи бенчмарка охватывают все аспекты измеряемого конструкта. ## Где встречается - [[498. Что такое meta-evaluation…
wikiмикро-бенчмарк
# микро-бенчмарк ## Определение Изолированный тест производительности, измеряющий латентность или пропускную способность конкретного компонента системы, например, доступа к памяти. ## Где встречается…
wikialgbw
# algbw ## Определение Алгоритмическая пропускная способность, измеряемая в бенчмарках (например, all_reduce_perf), включающая накладные расходы коммуникации. ## Где встречается - [[1. Развернуть…
wikiconfounding factors
# confounding factors ## Определение Факторы, которые могут искажать результаты бенчмарка, не относясь к измеряемому конструкту. ## Где встречается - [[498. Что такое meta…
wikiRGB
# RGB ## Определение Бенчмарк для оценки RAG-систем по критериям точности (faithfulness) и релевантности ответа. ## Где встречается - [[498. Что такое meta…
wikiKILT
# KILT ## Определение Бенчмарк для оценки моделей на задачах, требующих внешних знаний, широко применяемый для оценки RAG-систем. ## Где встречается - [[498…
wikicriterion validity
# criterion validity ## Определение Метод оценки бенчмарка, измеряющий корреляцию его результатов с внешним критерием реального качества (например, экспертная оценка). ## Где встречается…
wikiWebArena
# WebArena ## Определение Бенчмарк для оценки многошаговых действий агентов в симулированной веб-среде. Позволяет измерять способность агентов выполнять сложные сценарии, например…
wikiall_reduce_perf
# all_reduce_perf ## Определение Стандартный бенчмарк из набора nccl-tests для измерения пропускной способности и задержки операции all_reduce на…
wikiconstruct validity
# construct validity ## Определение Степень, в которой бенчмарк или тест измеряет именно заявленное свойство (например, рассуждение), оцениваемая экспертами. ## Где встречается - [[498…
wikiWinoBias
# WinoBias ## Определение Бенчмарк для оценки гендерных предубеждений в языковых моделях, состоящий из предложений с местоимениями, где модель должна правильно определить…
wikiMLPerf Inference
# MLPerf Inference ## Определение Промышленный бенчмарк для измерения производительности инференса ML-моделей по метрикам латентности и пропускной способности (throughput). ## Где встречается…
wikiZeroSCROLLS
# ZeroSCROLLS ## Определение Бенчмарк для оценки способности модели понимать длинные документы (книги, научные статьи). Включает задачи извлечения информации, ответов на вопросы…
wikiKendall's τ
…Применяется для оценки качества reward model в RLHF вне стандартных бенчмарков. ## Где встречается - [[331. Как вы измеряете quality RLHF модели…
wikidomain expert
# domain expert ## Определение Специалист в предметной области, привлекаемый для создания бенчмарков, таксономий задач и валидации заданий при оценке моделей в…
wikiBIG-bench
# BIG-bench ## Определение Набор бенчмарков для оценки LLM, включающий задачи на креативность и проверку construct validity модели. ## Где встречается - [[172…
wikihuman baseline
…Обычно представляет собой экспертные ответы на задачи бенчмарка. ## Где встречается - [[341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция…
wikiLong-context capability
…Тестируется с помощью специальных бенчмарков, таких как RULER и 'Needle in a Haystack'. ## Где встречается - [[627. Как вы тестируете long…
wikiAgentBench
# AgentBench ## Определение Бенчмарк для оценки LLM-агентов в 8 средах (web, CLI, SQL и др.), подверженный проблемам construct validity и…
wikiBBQ
# BBQ ## Определение Бенчмарк для измерения стереотипов и предвзятости в языковых моделях, используется для оценки bias amplification после RLAIF. ## Где встречается…
wikiOpenAI Evals
# OpenAI Evals ## Определение Набор стандартизированных бенчмарков и фреймворк для создания кастомных бенчмарков с поддержкой LLM-судей, используется для оценки качества…
wikitask taxonomy
# task taxonomy ## Определение Иерархическая классификация типов задач (task tree), разрабатываемая экспертами для структурирования бенчмарка. Обеспечивает покрытие всех сценариев использования и…
wikiPearson correlation
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] - [[800+ вопросов|800+ вопросов]] - [[30…
wikilm-evaluation-harness
# lm-evaluation-harness ## Определение Инструмент EleutherAI для унифицированного запуска бенчмарков, сбора статистики и проверки contamination при оценке LLM. ## Где встречается…
wikibenchmark task generation
# benchmark task generation ## Определение Генерация заданий (LLM + проверка) для бенчмарка. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…
wikidynamic benchmark
# dynamic benchmark ## Определение Бенчмарк, который меняется со временем (например, автоматическая генерация новых вопросов) для уменьшения риска утечки тестовых данных (contamination…
wikinccl-tests
# nccl-tests ## Определение Набор бенчмарков для измерения пропускной способности и задержки коллективных операций NCCL, включая all_reduce_perf. ## Где встречается…
wikiNCCL_NCHANNELS
…Развернуть NCCL бенчмарк на 2-8 GPU|1. Развернуть NCCL бенчмарк на 2-8 GPU]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiSama
…Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)|341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)]] ## Навигация…
wikishortcuts
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
answerКак вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
…Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)? ## Краткий тезис Проектирование бенчмарка для нового домена требует системного подхода: сначала…
wikiLongBench
# LongBench ## Определение Бенчмарк из 21 задачи (QA, суммаризация, few-shot learning) с длиной контекста от 5k до 15k токенов для…
wikistep completion
…Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)|341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)]] ## Навигация…
wikiVicuna benchmark
# Vicuna benchmark ## Определение Бенчмарк для оценки качества диалоговых моделей, основанный на сравнении ответов с эталонными. ## Где встречается - [[24. Какой размер…
wikiadversarial filtering
…Что такое meta-evaluation бенчмарков (оценка оценки)|498. Что такое meta-evaluation бенчмарков (оценка оценки)]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiCollNet
…Развернуть NCCL бенчмарк на 2-8 GPU|1. Развернуть NCCL бенчмарк на 2-8 GPU]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiEvaluator
…Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production|109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в…
wikiCDNA3
…Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации|710. Бенчмаркинг LLM на AMD…
wikiNVLink 5.0
…Развернуть NCCL бенчмарк на 2-8 GPU|1. Развернуть NCCL бенчмарк на 2-8 GPU]] ## Навигация - [[00. Индекс терминов|Индекс…
wikitopology
…Развернуть NCCL бенчмарк на 2-8 GPU|1. Развернуть NCCL бенчмарк на 2-8 GPU]] - [[8. Настроить InfiniBand partition keys…
wikiLLM-классификатор
…Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)|341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)]] ## Навигация…
wikiPrometheus-2
…Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)|331. Как вы измеряете quality RLHF модели вне стандартных…