GSM8K

Определение

Бенчмарк из 8 тысяч математических задач начальной школы для оценки способности LLM к математическим рассуждениям и цепочке шагов (chain-of-thought).

Где встречается

151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса
172. Что такое LiveIdeaBench и для чего он нужен
184. Почему естественный язык не подходит для сложного рассуждения
185. Как код как язык представления улучшает рассуждение LLM
337. Как вы проверяете, что RLHF не сломал базовые способности модели
339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
482. Как работает QLoRA (Quantized LoRA) для training
488. Что такое benchmark contamination и как ее детектировать
498. Что такое meta-evaluation бенчмарков (оценка оценки)
637. Что такое Chain-of-Thought без токенов (latent CoT, COCONUT)
713. Как работает Mamba (State Space Model) и чем она лучше трансформера
Практика
59. Сравнить архитектуры на reasoning задачах
63. Реализовать verifier-guided decoding
64. Настроить self-consistency для CoT
65. Реализовать process reward model
68. Настроить inference-time scaling
128. Измерить KPD (коэффициент полезного делегирования)
210. Сравнить GPTQ vs AWQ на reasoning задачах

GSM8K

GSM8K

Определение

Где встречается

Навигация