ZeRO-Offload
ZeRO-Offload
Определение
Техника выгрузки optimizer state и градиентов в CPU RAM или NVMe для экономии памяти GPU при обучении больших моделей.
Где встречается
- 461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
- 470. Что такое DeepSpeed ZeRO-Offload и когда он полезен
- 800+ вопросов