Навигация (Obsidian)

- Предыдущий: [[430. Как вы делаете canary analysis для новой LLM модели\|430]] - Следующий: [[432. Как работает FlashAttention-3 технически Чем отличается от FA2\|432]] - [[Вики/Qdrant\|Индекс]]: [[00. Индекс разборов]]

Почему LLM inference memory-bound, а не compute-bound?

Q: Краткий тезис

Хорошо, я подготовлю разбор вопроса 431 «Почему LLM inference memory-bound, а не compute-bound?» в формате, строго соответствующем вашему шаблону. Ниже — полный markdown-документ.

теги: [разбор, LLM inference, memory-bound, compute-bound, hardware] вопрос: 431

Краткий тезис

Основная причина — autoregressive decoding (генерация одного токена за шаг). На каждом шаге нужно загрузить все веса модели (например, 70B параметров = 140 GB в FP16) из HBM (High Bandwidth Memory) в SM (Streaming Multiprocessors) для вычислений. Вычислительные затраты (FLOPs) на один токен относительно малы (∼1–2% от total FLOPs для одного forward pass всей модели), поэтому узким местом становится пропускная способность памяти]] (HBM bandwidth), а не вычислительная мощность (FLOPS). При увеличении batch size > 128 bottleneck может сместиться в сторону compute, но для типичных инференс-настроек (batch=1, small) доминирует memory bandwidth.

1. Архитектура LLM и hardware контекст

1.1 Основные компоненты LLM инференса

**We