memory-bound

Определение

Характеристика операции, где производительность ограничена пропускной способностью памяти, а не вычислительной мощностью. Типична для decode stage в LLM inference.

Где встречается

162. Что такое Quasar и как quantized verification ускоряет инференс
277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
322. Что такое operator fusion в компиляторах и какие паттерны fusion существуют
401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism
431. Почему LLM inference memory-bound, а не compute-bound
436. В чем разница между prefill и decode stage в LLM инференсе
437. Почему decode stage плохо batchится
444. Почему 4-bit inference иногда медленнее 8-bit
459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
474. Как работает FlashAttention для training (не только inference)
703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
800+ вопросов
54. Сравнить Hyena vs FlashAttention на 128k
92. Профилировать GPU utilization падение

memory-bound

memory-bound

Определение

Где встречается

Навигация