all-to-all communication

Определение

Коммуникационный паттерн, при котором каждый узел отправляет данные каждому другому узлу; используется в expert parallelism и sequence parallelism для обмена активациями или KV-кэшем.

Где встречается

435. Почему MoE (Mixture of Experts) быстрее dense модели при инференсе
650. Что такое memory-efficient attention для long context на 8x H100
680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)
849. Что такое expert parallelism для MoE моделей (Mixtral)
9. Профилировать network congestion на 64 GPU
215. Настроить expert parallelism для Mixtral

all-to-all communication

all-to-all communication

Определение

Где встречается

Навигация