Ring all-reduce
Ring all-reduce
Определение
Алгоритм all-reduce, организующий GPU в кольцо для передачи данных; может быть оптимизирован для уменьшения влияния PCIe bottleneck.
Где встречается
- 307. Как PCIe bottleneck проявляется в multi-GPU инференсе
- 840. Когда tensor parallelism хуже pipeline parallelism