Поиск
- wikidynamic benchmark
# dynamic benchmark ## Определение Бенчмарк, который меняется со временем (например, автоматическая генерация новых вопросов) для уменьшения риска утечки тестовых данных (contamination…
- wikisynthetic benchmark generator
# synthetic benchmark generator ## Определение Автоматическая система, которая регулярно создаёт новые наборы тестовых примеров для оценки качества модели или RAG-системы…
- wikiBenchmarks
# Benchmarks ## Определение Benchmarks — набор тестов для измерения accuracy, fairness, robustness. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…
- wikidynamic benchmarks
# dynamic benchmarks ## Определение То же, что dynamic benchmark: набор тестов, обновляемый со временем для предотвращения подстройки модели под конкретные задания…
- wikibenchmark overfitting
# benchmark overfitting ## Определение Ситуация, когда модели специально дообучаются на тестовых данных бенчмарка, завышая результаты. ## Где встречается - [[498. Что такое meta…
- wikiПайплайн генерации
# Пайплайн генерации ## Определение Автоматизированный процесс, генерирующий новые данные (например, вопросы для benchmark) по расписанию или при изменении условий. Часто используется…
- wikiANN-benchmarks
# ANN-benchmarks ## Определение Инструмент для бенчмаркинга алгоритмов ANN на пользовательских данных, позволяющий сравнивать скорость и точность. ## Где встречается - [[235. Как…
- wikibenchmark
# benchmark ## Определение Набор тестов для оценки базовых способностей, безопасности или производительности модели; используется для фиксации baseline и сравнения версий. ## Где…
- wikiCommon Crawl
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[689. Как вы…
- wikibenchmark task generation
# benchmark task generation ## Определение Генерация заданий (LLM + проверка) для бенчмарка. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…
- wikiVALSE benchmark
# VALSE benchmark ## Определение Бенчмарк, тестирующий способность vision-language моделей обрабатывать лингвистические явления, такие как предлоги, множественные числа, отрицания. ## Где встречается…
- wikibenchmark chasing
# benchmark chasing ## Определение Оптимизация модели под конкретный бенчмарк, а не под реальную задачу; опасна переобучением и неэффективностью в production. ## Где…
- wikiredis-benchmark
# redis-benchmark ## Определение Инструмент командной строки для нагрузочного тестирования Redis; применяется для генерации массовых записей и проверки производительности персистентного хранения…
- wikiVicuna benchmark
# Vicuna benchmark ## Определение Бенчмарк для оценки качества диалоговых моделей, основанный на сравнении ответов с эталонными. ## Где встречается - [[24. Какой размер…
- wikisafety benchmarks
# safety benchmarks ## Определение Стандартизированные тесты (например, TruthfulQA, BBQ) для измерения безопасности и непредвзятости модели. ## Где встречается - [[330. Что такое RLAIF…
- wikin-gram overlap
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[689. Как вы…
- wikiMinHash
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[525. Как вы…
- wikiWIMBD
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] ## Навигация…
- wikiMathQA
# MathQA ## Определение Бенчмарк задач на рассуждение с генерацией новых чисел, относящийся к классу dynamic benchmarks. Является альтернативой GSM8K. ## Где встречается…
- wikiCron
…Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] - [[15. Настроить tiered…
- wikiутечка данных
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[494. Что такое…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Создать benchmark для агентов
…Создать benchmark для агентов ## 1. Цель задачи Разработать эталонный набор тестов (benchmark) из 200 запросов для оценки качества AI-агентов…
- answerЧто такое benchmark chasing и почему это опасно?
…Что такое benchmark chasing и почему это опасно? ## Краткий тезис [[Вики/benchmark chasing\|Benchmark chasing]] — это практика оптимизации модели или…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Создать benchmark для retrieval
…Создать benchmark для retrieval ## 1. Цель задачи Спроектировать и реализовать эталонный набор данных (benchmark) для оценки качества retrieval-системы в…
- wikiTyper
…Реализовать synthetic benchmark генератор|285. Реализовать synthetic benchmark генератор]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…В работе «[[Вики/benchmark\|Benchmarking]] [[Вики/утечка данных\|Benchmark Leakage]]» (2024) показано, что некоторые модели, достигающие 90% на [[Вики/GSM8K…
- wikiШаблонные вопросы
…Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] ## Навигация - [[00. Индекс…
- wikiHoldout set
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[494. Что такое…
- wikiEvaluation API
…Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] ## Навигация - [[00. Индекс…
- wikiThe Pile
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] ## Навигация - [[00. Индекс…
- answerКак вы проектируете dynamic benchmark (меняющийся со временем)?
…Как вы проектируете dynamic benchmark (меняющийся со временем)? ## Краткий тезис [[Вики/dynamic benchmark\|Dynamic benchmark]] — это [[Вики/eval set\|тестовый…
- wikicanonical perturbations
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] ## Навигация - [[00. Индекс…
- wikimembership inference attack
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[602. Как работает…
- wikianti-contamination
…Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] - [[800+ вопросов|800…
- wikiMM-Vet
# MM-Vet ## Определение Бенчмарк для мультимодальных VL-моделей с human evaluation по трём уровням: correctness, helpfulness, conciseness. ## Где встречается - [[560…
- wikiMT-Bench
# MT-Bench ## Определение Многошаговый бенчмарк (Multi-turn Benchmark) для оценки качества диалоговых моделей. Состоит из серии вопросов, проверяющих умение модели…
- wikiBEIR
# BEIR ## Определение Бенчмарк для оценки качества информационного поиска (retrieval) на 18 датасетах с метриками NDCG@10 и Recall@100. ## Где…
- wikiDatasketch
…Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] ## Навигация - [[00. Индекс…
- wikiARC
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] ## Навигация - [[00. Индекс…
- wikiLiveBench
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] ## Навигация…
- wikicanary examples
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] - [[800…
- wikiLLM-валидация
…Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] ## Навигация - [[00. Индекс…
- wikimutation
…Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] - [[730. Что такое…
- wikiMMHal-Bench
# MMHal-Bench ## Определение Бенчмарк для оценки галлюцинаций мультимодальных моделей (VLM) по 8 категориям с использованием LLM-судьи. ## Где встречается - [[368…
- wikiGoogle C4 dataset
…Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] ## Навигация - [[00. Индекс…
- wikisecret rotation
…Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] - [[800+ вопросов|800…
- wikiperplexity anomaly
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] - [[800…
- wikiSQLAlchemy
…Реализовать synthetic benchmark генератор|285. Реализовать synthetic benchmark генератор]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikilm-evaluation-harness
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[498. Что такое…
- wikiWikipedia API
…Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] - [[109. Настроить cost…