English translation is not available yet. Showing Russian content.
AllReduce
AllReduce
Определение
Коллективная операция синхронизации и агрегации (суммирования) данных между несколькими GPU, критичная для параллельных вычислений, таких как tensor parallelism. Используется для объединения градиентов или логитов в распределённом обучении и инференсе.
Где встречается
- 203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
- 307. Как PCIe bottleneck проявляется в multi-GPU инференсе
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
- 314. Как работает NVLink Switch System на DGX H100
- 401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism
- 402. Что такое NCCL и почему он критичен для multi-GPU инференса
- 423. Как работает tensor parallelism для LLM training Чем отличается от инференса
- 425. Как работает sequence parallelism в контексте LLM
- 426. Что такое 3D parallelism (data + tensor + pipeline)
- 460. Как работает tensor parallelism с FP8 в vLLM
- 462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
- 471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch
- 478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100
- 650. Что такое memory-efficient attention для long context на 8x H100
- 840. Когда tensor parallelism хуже pipeline parallelism
- Практика
- 800+ вопросов
- 1. Развернуть NCCL бенчмарк на 2-8 GPU
- 5. Сравнить NCCL ring vs tree
- 6. Настроить NVLink topology для 8x GPU
- 9. Профилировать network congestion на 64 GPU