Поиск
- wikidynamic benchmark
# dynamic benchmark ## Определение Бенчмарк, который меняется со временем (например, автоматическая генерация новых вопросов) для уменьшения риска утечки тестовых данных (contamination…
- wikin-gram overlap
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[689. Как вы…
- wikiутечка данных
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[494. Что такое…
- wikiWIMBD
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] ## Навигация…
- wikiLiveBench
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] ## Навигация…
- wikianti-contamination
# anti-contamination ## Определение Меры по предотвращению попадания тестовых данных в обучающий набор, чтобы оценивать модели на невиденных ранее вопросах. ## Где…
- wikimembership inference attack
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[602. Как работает…
- wikiperplexity anomaly
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] - [[800…
- wikiThe Pile
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] ## Навигация - [[00. Индекс…
- wikiCommon Crawl
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[689. Как вы…
- wikicanonical perturbations
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] ## Навигация - [[00. Индекс…
- wikiMinHash
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[525. Как вы…
- wikiMathQA
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[64. Настроить self…
- wikiHoldout set
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[494. Что такое…
- wikicanary examples
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] - [[800…
- wikiGoogle C4 dataset
…Как вы детектируете data contamination в evaluation датасетах]] - [[689. Как вы проектируете dynamic benchmark (меняющийся со временем)|689. Как вы…
- wikilm-evaluation-harness
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[498. Что такое…
- wikiARC
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] ## Навигация - [[00. Индекс…
- answerЧто такое benchmark contamination и как ее детектировать?
…Что такое benchmark contamination и как ее детектировать? ## Краткий тезис [[Вики/утечка данных\|Benchmark contamination]] — это ситуация, когда [[Вики/seed…
- answerКак избежать benchmark contamination (когда модель видела тестовые данные)?
…Как избежать benchmark contamination (когда модель видела тестовые данные)? ## Краткий тезис Benchmark contamination — это ситуация, когда модель при обучении или…
- wikiOpenAI Evals
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[686. Как работает…
- wikidata lineage
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] - [[800…
- wikiHellaSwag
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[498. Что такое…
- answerЧто такое benchmark chasing и почему это опасно?
…утечка данных\|data contamination]]), улучшения на бенчмарке не переносятся в [[Вики/production\|production]], а сами [[Вики/Benchmarks\|бенчмарки]] часто измеряют…
- wikiAlpacaEval
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[871. Как делать…
- wikiBi-encoder
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] - [[46…
- answerКак вы проектируете dynamic benchmark (меняющийся со временем)?
…benchmark\|бенчмарк]] статические [[Вики/Benchmarks\|бенчмарки]] со временем теряют дискриминативную способность. **Термин «[[Вики/утечка данных\|Контаминация]]» ([[Вики/утечка данных\|contamination…
- wikiLoss
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] - [[800…
- wikianswer_exact_match
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[501. Что такое…
- wikiGSM8K
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[498. Что такое…
- wikiдатасеты
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[514. Как вы…
- wikiMMLU
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[489. Что такое…
- answerКак вы детектируете data contamination в evaluation датасетах?
…Оценка степени contamination: метрики Для количественной оценки [[Вики/утечка данных\|contamination]] используют: - [[Вики/Contamination rate\|Contamination rate]] — [[Вики/stake\|доля…
- wikiforward pass
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] - [[800…
- answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…факты\|тестовые данные]] ([[Вики/утечка данных\|data contamination]])? - Не достиг ли [[Вики/benchmark\|бенчмарк]] потолка, когда все модели показывают 95…
- wikiSFT
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[489. Что такое…
- wikiduplicate detection
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] - [[885…
- wikiPerplexity
…Что такое benchmark contamination и как ее детектировать|488. Что такое benchmark contamination и как ее детектировать]] - [[544. Как вы…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать synthetic benchmark генератор
…Реализовать synthetic benchmark генератор ## 1. Цель задачи Разработать автоматическую систему, которая еженедельно создаёт новый набор тестовых примеров (вопросов/задач) с…
- wikiData parallelism
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] - [[885…
- wikiSynthetic dataset
…Как вы обнаруживаете contamination (пересечение synthetic данных с тестовыми)|693. Как вы обнаруживаете contamination (пересечение synthetic данных с тестовыми)]] - [[694…
- answerКак вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
…Что такое benchmark contamination и как ее детектировать\|488]] | Как адаптировать общий бенчмарк под свой домен? | --- ## Навигация (Obsidian) - Предыдущий: [[489…
- answerЧто такое reward hacking в RLHF и как его детектировать?
…Что такое benchmark contamination и как ее детектировать\|488]] | Основы RLHF: как работает PPO и обучение reward model | | [[490. Как…
- answerЧто такое calibration ошибок модели и как ее измерять (ECE, MCE, Brier score)?
…Что такое benchmark contamination и как ее детектировать\|488]] | Uncertainty estimation (энтропия, вариационное инференс) | | [[489. Что такое reward hacking в…
- answerКак вы проверяете, что RLHF не сломал базовые способности модели?
…Ниже — ключевые [[Вики/Benchmarks\|бенчмарки]]. | Бенчмарк | Что измеряет | Пример задачи | Типичный формат | |----------|--------------|---------------|-----------------| | [[Вики/MMLU\|MMLU]] (Massive Multitask Language Understanding) | Знания…
- answerЧто такое red teaming для LLM и как его проводить?
…Как избежать benchmark contamination (когда модель видела тестовые данные)\|869]] - Индекс: [[00. Индекс разборов]]
- answerЧто такое synthetic data collapse (когда синтетические данные деградируют со временем)?
…Как вы проектируете dynamic benchmark (меняющийся со временем)\|689]] | Как оценивать качество синтетических данных? | | [[45. Как вы тестируете агентов (сложно…
- answerКак вы измеряете diversity синтетического датасета?
…Как вы проектируете dynamic benchmark (меняющийся со временем)\|689]] | Генерация синтетических данных для RAG | | [[691. Как вы делаем synthetic data…
- answerКак работает DoRA (Weight-Decomposed LoRA) и чем лучше LoRA?
…Что такое benchmark contamination и как ее детектировать\|488]] | В чём разница между full fine-tuning и PEFT? | --- ## 10. Навигация…
- answerКак вы дебажите training instability (loss spikes, divergence)?
…Что такое benchmark contamination и как ее детектировать\|488]] | Как использовать mixed precision? | | [[489. Что такое reward hacking в RLHF…