English translation is not available yet. Showing Russian content.
Distributed Flash Attention
Distributed Flash Attention
Определение
Гибрид Flash Attention и sequence parallelism, использующий tiling внутри GPU и ring между GPU для эффективного внимания на длинных последовательностях.