HBM

Определение

Высокоскоростная память GPU (например, HBM3), используемая для хранения весов модели и KV cache; является узким местом для памяти при инференсе LLM.

Где встречается

201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
210. Что такое chunked prefill и зачем он нужен
304. Что такое FlashAttention с точки зрения CUDA programming
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
423. Как работает tensor parallelism для LLM training Чем отличается от инференса
425. Как работает sequence parallelism в контексте LLM
431. Почему LLM inference memory-bound, а не compute-bound
432. Как работает FlashAttention-3 технически Чем отличается от FA2
437. Почему decode stage плохо batchится
459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
474. Как работает FlashAttention для training (не только inference)
642. Как вы реализуете KV cache для 1M токенов на 8x H100
650. Что такое memory-efficient attention для long context на 8x H100
667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)
703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
707. Как работает asynchronous execution на Hopper (copy engine vs compute)
709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
844. Как работает FlashAttention-3 математически
800+ вопросов

HBM

HBM

Определение

Где встречается

Навигация