中文翻译暂不可用,显示俄语原文。
optimizer state
optimizer state
Определение
Дополнительные данные, хранимые оптимизатором (например, моменты в Adam), которые шардятся в ZeRO-1/FSDP для экономии памяти.
Где встречается
- 423. Как работает tensor parallelism для LLM training Чем отличается от инференса
- 462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
- 470. Что такое DeepSpeed ZeRO-Offload и когда он полезен
- 800+ вопросов