CPU offload
CPU offload
Определение
Техника выгрузки параметров, состояний оптимизатора или кэша на CPU для экономии VRAM, ценой замедления вычислений.
Где встречается
- 461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
- 471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch
- 244. Fine-tune QLoRA на 1 GPU