Поиск
- wikievaluation overfitting
# evaluation overfitting ## Определение Ситуация, когда модель подстраивается под тестовые данные (test set overfitting), снижая объективность метрик и обобщающую способность. ## Где…
- wikibenchmark overfitting
…overfitting ## Определение Ситуация, когда модели специально дообучаются на тестовых данных бенчмарка, завышая результаты. ## Где встречается - [[498. Что такое meta-evaluation…
- wikiGolden Holdout
# Golden Holdout ## Определение Фиксированный тестовый набор, применяемый только для финальной оценки, чтобы избежать evaluation overfitting. ## Где встречается - [[876. Как избежать…
- wikiNested cross-validation
…внешний для оценки обобщающей способности, внутренний для настройки гиперпараметров, предотвращающий evaluation overfitting. ## Где встречается - [[876. Как избежать evaluation overfitting (когда…
- wikiproxy metrics
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] - [[800…
- wikiDynamic evals
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] ## Навигация…
- wikiTfidf + LogisticRegression
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] ## Навигация…
- wikiГрупповая стратификация
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] ## Навигация…
- wikiGroupKFold
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] ## Навигация…
- wikiStratification
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] ## Навигация…
- wikiDeep Ensembles
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] ## Навигация…
- wikionline-метрики
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] - [[800…
- wikioffline-метрики
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] - [[800…
- answerКак избежать evaluation overfitting (когда модель учится на тесте)?
…Как избежать evaluation overfitting (когда модель учится на тесте)? ## Краткий тезис [[Вики/evaluation overfitting\|Evaluation overfitting]] ([[Вики/Overfitting\|переобучение]] на…
- wikin-gram overlap
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] - [[800…
- wikiCross-Validation
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] - [[800…
- wikianswer_exact_match
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] - [[48…
- answerЧто такое benchmark chasing и почему это опасно?
…evaluation для LLM? | | [[305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)\|305]] | Как избежать overfitting при…
- wikiдатасеты
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] - [[880…
- wikiутечка данных
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] - [[880…
- answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…агенты могут переобучаться на конкретные среды (overfitting to environment). Meta-evaluation помогает отсеять неинформативные бенчмарки и сосредоточиться на тех, которые…
- answerЧто такое synthetic eval collapse и как его предотвратить?
…Связь с другими концепциями - **[[Вики/Overfitting\|Overfitting]]** — [[Вики/model\|модель]] подстраивается под синтетическое [[Вики/probability distribution\|распределение]], теряя обобщающую способность…
- wikiEarly Stopping
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] - [[Практика…
- answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…60% | | Overfitting на тест (переобучение) | Модель подогнана под конкретный бенчмарк через многократные итерации | Команда 10 раз запускает evaluation, меняя гиперпараметры…
- wikiWeight Decay
…Как избежать evaluation overfitting (когда модель учится на тесте)|876. Как избежать evaluation overfitting (когда модель учится на тесте)]] - [[800…
- answerКакой размер датасета нужен для fine-tuning?
…Рекомендации для full fine-tuning - Минимум 2000–5000 примеров (иначе [[Вики/Overfitting\|переобучение]] почти гарантировано). - Хорошо 10 000–50 000…
- answerКак вы оцениваете качество после fine-tuning?
…нужно проверить корреляцию с [[Вики/Human evaluation\|human evaluation]]. Рекомендация используйте [[Вики/LLM-as-a-judge\|LLM-as-a-judge…
- answerКак вы проверяете, что RLHF не сломал базовые способности модели?
…Периодическое тестирование во время RLHF Каждые N шагов (например, 100 шагов [[Вики/Proximal Policy Optimization\|PPO]]) повторяем [[Вики/Evaluation\|evaluation…
- answerСколько эпох достаточно для LoRA fine-tuning?
…Ключевой приём — следить за валидационной метрикой и останавливаться, когда [[Вики/Loss\|loss]] перестаёт падать или начинает расти ([[Вики/Overfitting\|переобучение…
- answerКак работает LLM-as-judge и почему он biased?
…Зачем это нужно Людская [[Вики/Evaluation\|оценка]] ([[Вики/human-in-the-loop\|human evaluation]]) дорога, медленна и субъективна. [[Вики/LLM…
- answerКак вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
…Зачем - Предотвращает [[Вики/Overfitting\|overfitting]] (подгонку под публичные данные). - Обеспечивает честное сравнение разных систем (никто не может «натаскать» модель на…
- answerКак вы проектируете агента, который может работать непрерывно (24/7) без дрейфа поведения?
…Automated self-evaluation каждые N итераций [[Вики/Self-reflection\|Self-evaluation]] — автоматическая [[Вики/Evaluation\|оценка качества]] работы агента без участия…
- answerКак детектировать reward hacking в RLHF?
…снижение разнообразия") ``` ### 3.3 Human evaluation на holdout Самый надёжный, но дорогой метод. На отложенном наборе примеров (не использованных для…
- answerКак обучается reward model для RLHF и как избегать reward hacking?
…1–3, чтобы избежать переобучения (overfitting) на датасете предпочтений. - [[Вики/Validation set\|Валидация]]: метрика accuracy (доля пар, где предсказанный winner…
- answerЧто такое reward hacking в RLHF и как его детектировать?
…human evaluation и adversarial probing ### 5.1 Human evaluation на holdout-сете Самый надёжный способ — привлечь людей для оценки ответов…
- answerКак вы избегаете переобучения при fine-tuning на маленьком датасете?
…Как вы избегаете переобучения при fine-tuning на маленьком датасете? ## Краткий тезис [[Вики/Overfitting\|Переобучение]] на малом датасете — главный враг…
- answerКак fine-tune модель для следования сложным инструкциям?
…2–5 эпох, с ранней остановкой по валидационному [[Вики/Loss\|loss]] во избежание переобучения. [[Вики/Overfitting\|Переобучение]] на инструкциях ведёт…
- answerКак вы fine-tune embedding модель под свой домен (а не используете готовую)?
…Overfitting\|overtraining]]). Используйте [[Вики/Early Stopping\|early stopping]] по метрике на валидации. --- ## 6. Оценка модели (офлайн метрики) [[Вики/Evaluation\|Оценка…
- answerКак работает model inversion атака (восстановление training данных)?
…Атака эксплуатирует «[[Вики/Overfitting\|переобучение]]» ([[Вики/Memorization\|memorization]]) модели, когда она запоминает редкие или уникальные примеры из тренировочного набора. Основные…
- wikiИндекс терминов
…Evaluation|Evaluation]] - [[Вики/Evaluation API|Evaluation API]] - [[Вики/evaluation leakage|evaluation leakage]] - [[Вики/evaluation overfitting|evaluation overfitting]] - [[Вики/evaluation report…
- answerКак делать synthetic eval datasets для agentic workflows?
…Как избежать evaluation overfitting (когда модель учится на тесте)\|876]] - Индекс: [[00. Индекс разборов]]
- indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…Synthetic для agentic workflows | Q 152, Pet 236 | | 876 | Evaluation overfitting | Q 146 | | 877 | PRM vs ORM | Q 146, Pet…
- answerЧто такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса?
…Если [[Вики/Evaluation\|оценка]] низкая — повторный проход со сдвигом внимания. ### 5.3. Latent Bottleneck с итеративным уточнением Скрытый [[Вики/embedding…
- indexИндекс разборов
…Как избежать evaluation overfitting (когда модель учится на тесте)\|876. Как избежать evaluation overfitting (когда модель учится на тесте)?]] - [[877…
- answerКак вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофического забывания?
…пользователи могут ставить лайки случайно, дизлайки из-за непонимания, или злонамеренно. - [[Вики/Overfitting\|Переобучение]] на узкий [[Вики/source\|домен]]: [[Вики…
- answerКак вы измеряете diversity синтетического датасета?
…Если [[Вики/diversity\|diversity]] низкий: - [[Вики/model\|Модель]] запоминает узкие паттерны и плохо обобщается. - [[Вики/Evaluation\|Оценка качества]] ([[Вики/accuracy…
- answerКак работает process reward model (PRM) vs outcome reward model (ORM)?
…Как избежать evaluation overfitting (когда модель учится на тесте)\|876]] - Следующий: [[878. Как измерять faithfulness для long-form ответов (1000…
- indexОглавление
…Как избежать evaluation overfitting (когда модель учится на тесте)\|876. Как избежать evaluation overfitting (когда модель учится на]] - [[Вопросы/Ответы…
- question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как избежать evaluation overfitting (когда модель учится на тесте)?** > *Ответ:* > - **Holdout золотого набора:** никогда не использовать в training > - **Случайный порядок…