benchmark
benchmark
Определение
Набор тестов для оценки базовых способностей, безопасности или производительности модели; используется для фиксации baseline и сравнения версий.
Где встречается
- 71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
- 225. Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные
- 362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 505. Как вы проверяете, что новая версия модели не сломала старые кейсы
- Практика
- 800+ вопросов
- 11. Конвертировать датасет из JSONL в Parquet
- 13. Сравнить S3 vs EBS для checkpoint'ов 70B
- 52. Настроить RWKV для инференса
- 71. Рассчитать cost per 1M tokens для разных моделей
- 149. Настроить regression test suite
- 174. Настроить prompt caching
- 220. Настроить wave decoding для коротких ответов