Distributed Flash Attention

Определение

Гибрид Flash Attention и sequence parallelism, использующий tiling внутри GPU и ring между GPU для эффективного внимания на длинных последовательностях.

Где встречается

425. Как работает sequence parallelism в контексте LLM

Distributed Flash Attention

Distributed Flash Attention

Определение

Где встречается

Навигация