Math
Math
Определение
Бенчмарк математических задач высокого уровня для оценки способности LLM к рассуждениям. Используется для сравнения моделей и методов (например, ReST, PoT).
Где встречается
- 151. Что такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса
- 185. Как код как язык представления улучшает рассуждение LLM
- 339. Как работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO
- 713. Как работает Mamba (State Space Model) и чем она лучше трансформера
- Практика
- 800+ вопросов
- 59. Сравнить архитектуры на reasoning задачах
- 65. Реализовать process reward model
- 210. Сравнить GPTQ vs AWQ на reasoning задачах