Memory Bandwidth

Определение

Пропускная способность памяти, ключевой ресурс, ограничивающий производительность при работе с большими моделями; диагностируется через насыщение bandwidth.

Где встречается

277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
431. Почему LLM inference memory-bound, а не compute-bound
435. Почему MoE (Mixture of Experts) быстрее dense модели при инференсе
444. Почему 4-bit inference иногда медленнее 8-bit
640. Как работает Multi-query attention (MQA) для long context
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
838. Как speculative decoding ускоряет inference (детально)
800+ вопросов

Memory Bandwidth

Memory Bandwidth

Определение

Где встречается

Навигация