FSDP
FSDP
Определение
Техника распределённого обучения в PyTorch, которая шардирует веса, градиенты и состояния оптимизатора между GPU, уменьшая потребление памяти и позволяя обучать большие модели.
Где встречается
- 33. Какие фреймворки для fine-tuning вы используете
- 314. Как работает NVLink Switch System на DGX H100
- 426. Что такое 3D parallelism (data + tensor + pipeline)
- 461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
- 465. Как работает gradient checkpointing в DeepSpeed
- 471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch
- 473. Что такое torch.compile и как он ускоряет training
- 476. Как работает packing для variable-length sequences в FSDP
- 800+ вопросов
- 5. Сравнить NCCL ring vs tree
- 10. Реализовать topology-aware scheduling