Online softmax

Определение

Алгоритм вычисления softmax по блокам без хранения всей матрицы S, использует running max и сумму экспонент для коррекции; применяется в FlashAttention.

Где встречается

304. Что такое FlashAttention с точки зрения CUDA programming
425. Как работает sequence parallelism в контексте LLM
432. Как работает FlashAttention-3 технически Чем отличается от FA2
474. Как работает FlashAttention для training (не только inference)
650. Что такое memory-efficient attention для long context на 8x H100
667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)
703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
844. Как работает FlashAttention-3 математически
800+ вопросов

Online softmax

Online softmax

Определение

Где встречается

Навигация