中文翻译暂不可用,显示俄语原文。
cp.async.bulk
cp.async.bulk
Определение
PTX-инструкция для асинхронного копирования данных через Tensor Memory Accelerator на GPU Hopper, применяемая в оптимизированных алгоритмах вроде FlashAttention-3.
Где встречается
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
- 707. Как работает asynchronous execution на Hopper (copy engine vs compute)