Online softmax
Online softmax
Определение
Алгоритм вычисления softmax по блокам без хранения всей матрицы S, использует running max и сумму экспонент для коррекции; применяется в FlashAttention.
Где встречается
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 425. Как работает sequence parallelism в контексте LLM
- 432. Как работает FlashAttention-3 технически Чем отличается от FA2
- 474. Как работает FlashAttention для training (не только inference)
- 650. Что такое memory-efficient attention для long context на 8x H100
- 667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 844. Как работает FlashAttention-3 математически
- 800+ вопросов