Distributed Data Parallel
Distributed Data Parallel
Определение
Метод распределённого обучения с полной копией модели на каждом GPU и синхронизацией градиентов через AllReduce.
Где встречается
- 468. Почему small batch size (32) ухудшает training стабильность
- 471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch
- 472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации
- 5. Сравнить NCCL ring vs tree