English translation is not available yet. Showing Russian content.
MMLU
MMLU
Определение
Популярный бенчмарк для проверки общих знаний модели по множеству дисциплин, широко применяется для оценки базовых способностей LLM.
Где встречается
- 28. Какие данные нужны для fine-tuning на кастомный стиль общения
- 72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
- 171. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации
- 172. Что такое LiveIdeaBench и для чего он нужен
- 259. Как вы генерируете synthetic данные для instruction tuning
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 458. Что такое FP8 инференс на H100 (Transformer Engine)
- 477. Что такое curriculum learning на уровне данных для LLM
- 482. Как работает QLoRA (Quantized LoRA) для training
- 488. Что такое benchmark contamination и как ее детектировать
- 489. Что такое reward hacking в RLHF и как его детектировать
- 498. Что такое meta-evaluation бенчмарков (оценка оценки)
- 596. Как работает model stealing attack (экстракция модели через API)
- 655. Что такое SwiGLU и почему он лучше ReLU в LLM
- 688. Что такое synthetic data collapse (когда синтетические данные деградируют со временем)
- 713. Как работает Mamba (State Space Model) и чем она лучше трансформера
- 783. Как сравнивать cost efficiency разных LLM провайдеров
- 872. Что такое calibration для LLM и как её измерять (ECE)
- 873. Как детектировать reward hacking в RLHF
- 800+ вопросов
- 71. Рассчитать cost per 1M tokens для разных моделей
- 128. Измерить KPD (коэффициент полезного делегирования)