ZeRO

Определение

Техника оптимизации памяти для распределённого обучения LLM, шардирующая состояние оптимизатора, градиенты и параметры между GPU. Позволяет обучать большие модели, уменьшая потребление памяти на каждом устройстве.

Где встречается

33. Какие фреймворки для fine-tuning вы используете
423. Как работает tensor parallelism для LLM training Чем отличается от инференса
426. Что такое 3D parallelism (data + tensor + pipeline)
461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
465. Как работает gradient checkpointing в DeepSpeed
470. Что такое DeepSpeed ZeRO-Offload и когда он полезен
471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch
478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)
840. Когда tensor parallelism хуже pipeline parallelism
800+ вопросов

ZeRO

ZeRO

Определение

Где встречается

Навигация