English translation is not available yet. Showing Russian content.
GSM8K
GSM8K
Определение
Бенчмарк из 8 тысяч математических задач начальной школы для оценки способности LLM к математическим рассуждениям и цепочке шагов (chain-of-thought).
Где встречается
- 151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса
- 172. Что такое LiveIdeaBench и для чего он нужен
- 184. Почему естественный язык не подходит для сложного рассуждения
- 185. Как код как язык представления улучшает рассуждение LLM
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
- 482. Как работает QLoRA (Quantized LoRA) для training
- 488. Что такое benchmark contamination и как ее детектировать
- 498. Что такое meta-evaluation бенчмарков (оценка оценки)
- 637. Что такое Chain-of-Thought без токенов (latent CoT, COCONUT)
- 713. Как работает Mamba (State Space Model) и чем она лучше трансформера
- Практика
- 59. Сравнить архитектуры на reasoning задачах
- 63. Реализовать verifier-guided decoding
- 64. Настроить self-consistency для CoT
- 65. Реализовать process reward model
- 68. Настроить inference-time scaling
- 128. Измерить KPD (коэффициент полезного делегирования)
- 210. Сравнить GPTQ vs AWQ на reasoning задачах