Memory Bandwidth
Memory Bandwidth
Определение
Пропускная способность памяти, ключевой ресурс, ограничивающий производительность при работе с большими моделями; диагностируется через насыщение bandwidth.
Где встречается
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
- 431. Почему LLM inference memory-bound, а не compute-bound
- 435. Почему MoE (Mixture of Experts) быстрее dense модели при инференсе
- 444. Почему 4-bit inference иногда медленнее 8-bit
- 640. Как работает Multi-query attention (MQA) для long context
- 710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
- 838. Как speculative decoding ускоряет inference (детально)
- 800+ вопросов