AllReduce

Определение

Коллективная операция синхронизации и агрегации (суммирования) данных между несколькими GPU, критичная для параллельных вычислений, таких как tensor parallelism. Используется для объединения градиентов или логитов в распределённом обучении и инференсе.

Где встречается

203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
307. Как PCIe bottleneck проявляется в multi-GPU инференсе
310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
314. Как работает NVLink Switch System на DGX H100
401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism
402. Что такое NCCL и почему он критичен для multi-GPU инференса
423. Как работает tensor parallelism для LLM training Чем отличается от инференса
425. Как работает sequence parallelism в контексте LLM
426. Что такое 3D parallelism (data + tensor + pipeline)
460. Как работает tensor parallelism с FP8 в vLLM
462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch
478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)
642. Как вы реализуете KV cache для 1M токенов на 8x H100
650. Что такое memory-efficient attention для long context на 8x H100
840. Когда tensor parallelism хуже pipeline parallelism
Практика
800+ вопросов
1. Развернуть NCCL бенчмарк на 2-8 GPU
5. Сравнить NCCL ring vs tree
6. Настроить NVLink topology для 8x GPU
9. Профилировать network congestion на 64 GPU

AllReduce

AllReduce

Определение

Где встречается

Навигация