Почему LLM inference memory-bound, а не compute-bound?

Хорошо, я подготовлю разбор вопроса 431 «Почему LLM inference memory-bound, а не compute-bound?» в формате, строго соответствующем вашему шаблону. Ниже — полный markdown-документ.


теги: [разбор, LLM inference, memory-bound, compute-bound, hardware] вопрос: 431

Краткий тезис

Основная причина — autoregressive decoding (генерация одного токена за шаг). На каждом шаге нужно загрузить все веса модели (например, 70B параметров = 140 GB в FP16) из HBM (High Bandwidth Memory) в SM (Streaming Multiprocessors) для вычислений. Вычислительные затраты (FLOPs) на один токен относительно малы (∼1–2% от total FLOPs для одного forward pass всей модели), поэтому узким местом становится пропускная способность памяти]] (HBM bandwidth), а не вычислительная мощность (FLOPS). При увеличении batch size > 128 bottleneck может сместиться в сторону compute, но для типичных инференс-настроек (batch=1, small) доминирует memory bandwidth.


1. Архитектура LLM и hardware контекст

1.1 Основные компоненты LLM инференса

  • **We

Навигация