English translation is not available yet. Showing Russian content.
ZeRO
ZeRO
Определение
Техника оптимизации памяти для распределённого обучения LLM, шардирующая состояние оптимизатора, градиенты и параметры между GPU. Позволяет обучать большие модели, уменьшая потребление памяти на каждом устройстве.
Где встречается
- 33. Какие фреймворки для fine-tuning вы используете
- 423. Как работает tensor parallelism для LLM training Чем отличается от инференса
- 426. Что такое 3D parallelism (data + tensor + pipeline)
- 461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
- 462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
- 465. Как работает gradient checkpointing в DeepSpeed
- 470. Что такое DeepSpeed ZeRO-Offload и когда он полезен
- 471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch
- 478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)
- 840. Когда tensor parallelism хуже pipeline parallelism
- 800+ вопросов