Holdout set

Определение

Набор данных, отложенный от обучения и используемый только для финальной оценки качества модели, чтобы избежать утечки данных.

Где встречается

24. Какой размер датасета нужен для fine-tuning
25. Как вы оцениваете качество после fine-tuning
76. Как вы делаете AB тестирование двух моделей в production
331. Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)
350. Как вы детектируете data contamination в evaluation датасетах
391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
400. Как вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофиче...
488. Что такое benchmark contamination и как ее детектировать
494. Что такое synthetic eval collapse и как его предотвратить
496. Что такое reward correlation и как ее измерять
534. Как вы делаете data quality для синтетических датасетов
689. Как вы проектируете dynamic benchmark (меняющийся со временем)
693. Как вы обнаруживаете contamination (пересечение synthetic данных с тестовыми)
700. Как вы комбинируете реальные и синтетические данные для максимального качества
869. Как избежать benchmark contamination (когда модель видела тестовые данные)
873. Как детектировать reward hacking в RLHF
800+ вопросов
127. Реализовать outsourcing другому LLM

Holdout set

Holdout set

Определение

Где встречается

Навигация