Tensor Cores

Определение

Специализированные аппаратные блоки в GPU NVIDIA (H100/B200) для ускорения матричного умножения (GEMM) в форматах FP16/FP8/INT8, обеспечивающие прирост производительности в 10-20 раз по сравнению с CUDA cores.

Где встречается

300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
303. Как работают Tensor Cores в H100B200 и для чего они нужны
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
312. Как работает FP8 quantization на H100 (Transformer Engine)
324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
432. Как работает FlashAttention-3 технически Чем отличается от FA2
444. Почему 4-bit inference иногда медленнее 8-bit
458. Что такое FP8 инференс на H100 (Transformer Engine)
460. Как работает tensor parallelism с FP8 в vLLM
464. Почему BF16 лучше FP16 для training
469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
666. Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать
703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100
706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
707. Как работает asynchronous execution на Hopper (copy engine vs compute)
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
711. Как работает speculative execution на GPU для LLM (branch prediction)
844. Как работает FlashAttention-3 математически
800+ вопросов
214. Реализовать FP8 инференс на H100

Tensor Cores

Tensor Cores

Определение

Где встречается

Навигация

Tensor Cores

Tensor Cores

Определение

Где встречается

Навигация