Tensor Cores
Tensor Cores
Определение
Специализированные аппаратные блоки в GPU NVIDIA (H100/B200) для ускорения матричного умножения (GEMM) в форматах FP16/FP8/INT8, обеспечивающие прирост производительности в 10-20 раз по сравнению с CUDA cores.
Где встречается
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 303. Как работают Tensor Cores в H100B200 и для чего они нужны
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 312. Как работает FP8 quantization на H100 (Transformer Engine)
- 324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
- 432. Как работает FlashAttention-3 технически Чем отличается от FA2
- 444. Почему 4-bit inference иногда медленнее 8-bit
- 458. Что такое FP8 инференс на H100 (Transformer Engine)
- 460. Как работает tensor parallelism с FP8 в vLLM
- 464. Почему BF16 лучше FP16 для training
- 469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
- 666. Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
- 707. Как работает asynchronous execution на Hopper (copy engine vs compute)
- 710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
- 711. Как работает speculative execution на GPU для LLM (branch prediction)
- 844. Как работает FlashAttention-3 математически
- 800+ вопросов
- 214. Реализовать FP8 инференс на H100