English translation is not available yet. Showing Russian content.
IO-aware
IO-aware
Определение
Принцип оптимизации алгоритма, учитывающий количество обращений к памяти (HBM) и обмен данными между SRAM и HBM, а не только число арифметических операций.
Где встречается
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 474. Как работает FlashAttention для training (не только inference)