MMLU

Определение

Популярный бенчмарк для проверки общих знаний модели по множеству дисциплин, широко применяется для оценки базовых способностей LLM.

Где встречается

28. Какие данные нужны для fine-tuning на кастомный стиль общения
72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
171. Что такое IRT (Item Response Theory) и как она применяется к LLM эвалюации
172. Что такое LiveIdeaBench и для чего он нужен
259. Как вы генерируете synthetic данные для instruction tuning
337. Как вы проверяете, что RLHF не сломал базовые способности модели
458. Что такое FP8 инференс на H100 (Transformer Engine)
477. Что такое curriculum learning на уровне данных для LLM
482. Как работает QLoRA (Quantized LoRA) для training
488. Что такое benchmark contamination и как ее детектировать
489. Что такое reward hacking в RLHF и как его детектировать
498. Что такое meta-evaluation бенчмарков (оценка оценки)
596. Как работает model stealing attack (экстракция модели через API)
655. Что такое SwiGLU и почему он лучше ReLU в LLM
688. Что такое synthetic data collapse (когда синтетические данные деградируют со временем)
713. Как работает Mamba (State Space Model) и чем она лучше трансформера
783. Как сравнивать cost efficiency разных LLM провайдеров
872. Что такое calibration для LLM и как её измерять (ECE)
873. Как детектировать reward hacking в RLHF
800+ вопросов
71. Рассчитать cost per 1M tokens для разных моделей
128. Измерить KPD (коэффициент полезного делегирования)

MMLU

MMLU

Определение

Где встречается

Навигация