all-to-all communication
all-to-all communication
Определение
Коммуникационный паттерн, при котором каждый узел отправляет данные каждому другому узлу; используется в expert parallelism и sequence parallelism для обмена активациями или KV-кэшем.
Где встречается
- 435. Почему MoE (Mixture of Experts) быстрее dense модели при инференсе
- 650. Что такое memory-efficient attention для long context на 8x H100
- 680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)
- 849. Что такое expert parallelism для MoE моделей (Mixtral)
- 9. Профилировать network congestion на 64 GPU
- 215. Настроить expert parallelism для Mixtral