English translation is not available yet. Showing Russian content.
memory-bound
memory-bound
Определение
Характеристика операции, где производительность ограничена пропускной способностью памяти, а не вычислительной мощностью. Типична для decode stage в LLM inference.
Где встречается
- 162. Что такое Quasar и как quantized verification ускоряет инференс
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 322. Что такое operator fusion в компиляторах и какие паттерны fusion существуют
- 401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism
- 431. Почему LLM inference memory-bound, а не compute-bound
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 437. Почему decode stage плохо batchится
- 444. Почему 4-bit inference иногда медленнее 8-bit
- 459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
- 474. Как работает FlashAttention для training (не только inference)
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
- 800+ вопросов
- 54. Сравнить Hyena vs FlashAttention на 128k
- 92. Профилировать GPU utilization падение