xFormers
xFormers
Определение
Библиотека Meta с оптимизированными реализациями механизмов внимания (attention), включая FlashAttention. Обеспечивает эффективный инференс и обучение за счёт padding-free batching и других оптимизаций.
Где встречается
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3