English translation is not available yet. Showing Russian content.
Почему LLM inference memory-bound, а не compute-bound?
Хорошо, я подготовлю разбор вопроса 431 «Почему LLM inference memory-bound, а не compute-bound?» в формате, строго соответствующем вашему шаблону. Ниже — полный markdown-документ.
теги: [разбор, LLM inference, memory-bound, compute-bound, hardware] вопрос: 431
Краткий тезис
Основная причина — autoregressive decoding (генерация одного токена за шаг). На каждом шаге нужно загрузить все веса модели (например, 70B параметров = 140 GB в FP16) из HBM (High Bandwidth Memory) в SM (Streaming Multiprocessors) для вычислений. Вычислительные затраты (FLOPs) на один токен относительно малы (∼1–2% от total FLOPs для одного forward pass всей модели), поэтому узким местом становится пропускная способность памяти]] (HBM bandwidth), а не вычислительная мощность (FLOPS). При увеличении batch size > 128 bottleneck может сместиться в сторону compute, но для типичных инференс-настроек (batch=1, small) доминирует memory bandwidth.
1. Архитектура LLM и hardware контекст
1.1 Основные компоненты LLM инференса
- **We
Навигация
- Предыдущий: 430
- Следующий: 432
- Индекс: 00. Индекс разборов