MMLU
MMLU
Определение
Популярный бенчмарк для проверки общих знаний модели по множеству дисциплин, широко применяется для оценки базовых способностей LLM.
Где встречается
- 28. Какие данные нужны для fine-tuning на кастомный стиль общения
- 72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
- 171. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации
- 172. Что такое LiveIdeaBench и для чего он нужен
- 259. Как вы генерируете synthetic данные для instruction tuning
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 458. Что такое FP8 инференс на H100 (Transformer Engine)
- 477. Что такое curriculum learning на уровне данных для LLM
- 482. Как работает QLoRA (Quantized LoRA) для training
- 488. Что такое benchmark contamination и как ее детектировать
- 489. Что такое reward hacking в RLHF и как его детектировать
- 498. Что такое meta-evaluation бенчмарков (оценка оценки)
- 596. Как работает model stealing attack (экстракция модели через API)
- 655. Что такое SwiGLU и почему он лучше ReLU в LLM
- 688. Что такое synthetic data collapse (когда синтетические данные деградируют со временем)
- 713. Как работает Mamba (State Space Model) и чем она лучше трансформера
- 783. Как сравнивать cost efficiency разных LLM провайдеров
- 872. Что такое calibration для LLM и как её измерять (ECE)
- 873. Как детектировать reward hacking в RLHF
- 800+ вопросов
- 71. Рассчитать cost per 1M tokens для разных моделей
- 128. Измерить KPD (коэффициент полезного делегирования)