中文翻译暂不可用,显示俄语原文。
AllGather
AllGather
Определение
Коллективная коммуникационная операция, при которой каждый узел рассылает свои данные всем остальным; используется в FSDP и ZeRO-3 для сборки весов перед вычислениями.
Где встречается
- 203. Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.
- 307. Как PCIe bottleneck проявляется в multi-GPU инференсе
- 402. Что такое NCCL и почему он критичен для multi-GPU инференса
- 423. Как работает tensor parallelism для LLM training Чем отличается от инференса
- 426. Что такое 3D parallelism (data + tensor + pipeline)
- 461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
- 462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
- 471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch
- 478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)
- 800+ вопросов