double buffering
double buffering
Определение
Техника с двумя буферами в shared memory: один используется для вычислений, другой — для загрузки данных, что полностью перекрывает копирование и вычисления (например, в FlashAttention-3).
Где встречается
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
- 844. Как работает FlashAttention-3 математически