English translation is not available yet. Showing Russian content.
HBM
HBM
Определение
Высокоскоростная память GPU (например, HBM3), используемая для хранения весов модели и KV cache; является узким местом для памяти при инференсе LLM.
Где встречается
- 201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
- 210. Что такое chunked prefill и зачем он нужен
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 423. Как работает tensor parallelism для LLM training Чем отличается от инференса
- 425. Как работает sequence parallelism в контексте LLM
- 431. Почему LLM inference memory-bound, а не compute-bound
- 432. Как работает FlashAttention-3 технически Чем отличается от FA2
- 437. Почему decode stage плохо batchится
- 459. Как вы дебажите низкую GPU utilization (например, 40% на A100)
- 474. Как работает FlashAttention для training (не только inference)
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100
- 650. Что такое memory-efficient attention для long context на 8x H100
- 667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
- 707. Как работает asynchronous execution на Hopper (copy engine vs compute)
- 709. NVIDIA Grace Hopper CPU-GPU unified memory, как это меняет LLM serving
- 710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
- 844. Как работает FlashAttention-3 математически
- 800+ вопросов