Поиск

  • wikidynamic benchmark

    # dynamic benchmark ## Определение Бенчмарк, который меняется со временем (например, автоматическая генерация новых вопросов) для уменьшения риска утечки тестовых данных (contamination…

  • wikisynthetic benchmark generator

    # synthetic benchmark generator ## Определение Автоматическая система, которая регулярно создаёт новые наборы тестовых примеров для оценки качества модели или RAG-системы…

  • wikiBenchmarks

    # Benchmarks ## Определение Benchmarks — набор тестов для измерения accuracy, fairness, robustness. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…

  • wikidynamic benchmarks

    # dynamic benchmarks ## Определение То же, что dynamic benchmark: набор тестов, обновляемый со временем для предотвращения подстройки модели под конкретные задания…

  • wikibenchmark overfitting

    # benchmark overfitting ## Определение Ситуация, когда модели специально дообучаются на тестовых данных бенчмарка, завышая результаты. ## Где встречается - [[498. Что такое meta…

  • wikiПайплайн генерации

    # Пайплайн генерации ## Определение Автоматизированный процесс, генерирующий новые данные (например, вопросы для benchmark) по расписанию или при изменении условий. Часто используется…

  • wikiANN-benchmarks

    # ANN-benchmarks ## Определение Инструмент для бенчмаркинга алгоритмов ANN на пользовательских данных, позволяющий сравнивать скорость и точность. ## Где встречается - [[235. Как…

  • wikibenchmark

    # benchmark ## Определение Набор тестов для оценки базовых способностей, безопасности или производительности модели; используется для фиксации baseline и сравнения версий. ## Где…

  • wikiCommon Crawl

    …Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[689. Как вы…

  • wikibenchmark task generation

    # benchmark task generation ## Определение Генерация заданий (LLM + проверка) для бенчмарка. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…

  • wikiVALSE benchmark

    # VALSE benchmark ## Определение Бенчмарк, тестирующий способность vision-language моделей обрабатывать лингвистические явления, такие как предлоги, множественные числа, отрицания. ## Где встречается…

  • wikibenchmark chasing

    # benchmark chasing ## Определение Оптимизация модели под конкретный бенчмарк, а не под реальную задачу; опасна переобучением и неэффективностью в production. ## Где…

  • wikiredis-benchmark

    # redis-benchmark ## Определение Инструмент командной строки для нагрузочного тестирования Redis; применяется для генерации массовых записей и проверки производительности персистентного хранения…

  • wikiVicuna benchmark

    # Vicuna benchmark ## Определение Бенчмарк для оценки качества диалоговых моделей, основанный на сравнении ответов с эталонными. ## Где встречается - [[24. Какой размер…

  • wikisafety benchmarks

    # safety benchmarks ## Определение Стандартизированные тесты (например, TruthfulQA, BBQ) для измерения безопасности и непредвзятости модели. ## Где встречается - [[330. Что такое RLAIF…

  • wikin-gram overlap

    …Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[689. Как вы…

  • wikiMinHash

    …Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[525. Как вы…

  • wikiWIMBD

    …Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] ## Навигация…

  • wikiMathQA

    # MathQA ## Определение Бенчмарк задач на рассуждение с генерацией новых чисел, относящийся к классу dynamic benchmarks. Является альтернативой GSM8K. ## Где встречается…

  • wikiCron

    …Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] - [[15. Настроить tiered…

  • wikiутечка данных

    …Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[494. Что такое…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Создать benchmark для агентов

    …Создать benchmark для агентов ## 1. Цель задачи Разработать эталонный набор тестов (benchmark) из 200 запросов для оценки качества AI-агентов…

  • answerЧто такое benchmark chasing и почему это опасно?

    …Что такое benchmark chasing и почему это опасно? ## Краткий тезис [[Вики/benchmark chasing\|Benchmark chasing]] — это практика оптимизации модели или…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Создать benchmark для retrieval

    …Создать benchmark для retrieval ## 1. Цель задачи Спроектировать и реализовать эталонный набор данных (benchmark) для оценки качества retrieval-системы в…

  • wikiTyper

    …Реализовать synthetic benchmark генератор|285. Реализовать synthetic benchmark генератор]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • answerЧто такое meta-evaluation бенчмарков (оценка оценки)?

    …В работе «[[Вики/benchmark\|Benchmarking]] [[Вики/утечка данных\|Benchmark Leakage]]» (2024) показано, что некоторые модели, достигающие 90% на [[Вики/GSM8K…

  • wikiШаблонные вопросы

    …Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] ## Навигация - [[00. Индекс…

  • wikiHoldout set

    …Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[494. Что такое…

  • wikiEvaluation API

    …Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] ## Навигация - [[00. Индекс…

  • wikiThe Pile

    …Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] ## Навигация - [[00. Индекс…

  • answerКак вы проектируете dynamic benchmark (меняющийся со временем)?

    …Как вы проектируете dynamic benchmark (меняющийся со временем)? ## Краткий тезис [[Вики/dynamic benchmark\|Dynamic benchmark]] — это [[Вики/eval set\|тестовый…

  • wikicanonical perturbations

    …Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] ## Навигация - [[00. Индекс…

  • wikimembership inference attack

    …Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[602. Как работает…

  • wikianti-contamination

    …Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] - [[800+ вопросов|800…

  • wikiMM-Vet

    # MM-Vet ## Определение Бенчмарк для мультимодальных VL-моделей с human evaluation по трём уровням: correctness, helpfulness, conciseness. ## Где встречается - [[560…

  • wikiMT-Bench

    # MT-Bench ## Определение Многошаговый бенчмарк (Multi-turn Benchmark) для оценки качества диалоговых моделей. Состоит из серии вопросов, проверяющих умение модели…

  • wikiBEIR

    # BEIR ## Определение Бенчмарк для оценки качества информационного поиска (retrieval) на 18 датасетах с метриками NDCG@10 и Recall@100. ## Где…

  • wikiDatasketch

    …Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] ## Навигация - [[00. Индекс…

  • wikiARC

    …Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] ## Навигация - [[00. Индекс…

  • wikiLiveBench

    …Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] ## Навигация…

  • wikicanary examples

    …Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] - [[800…

  • wikiLLM-валидация

    …Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] ## Навигация - [[00. Индекс…

  • wikimutation

    …Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] - [[730. Что такое…

  • wikiMMHal-Bench

    # MMHal-Bench ## Определение Бенчмарк для оценки галлюцинаций мультимодальных моделей (VLM) по 8 категориям с использованием LLM-судьи. ## Где встречается - [[368…

  • wikiGoogle C4 dataset

    …Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] ## Навигация - [[00. Индекс…

  • wikisecret rotation

    …Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] - [[800+ вопросов|800…

  • wikiperplexity anomaly

    …Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] - [[800…

  • wikiSQLAlchemy

    …Реализовать synthetic benchmark генератор|285. Реализовать synthetic benchmark генератор]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikilm-evaluation-harness

    …Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[498. Что такое…

  • wikiWikipedia API

    …Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы проектируете dynamic benchmark (меняющийся со временем)]] - [[109. Настроить cost…