English translation is not available yet. Showing Russian content.
gradient accumulation
gradient accumulation
Определение
Техника накопления градиентов из нескольких микро-батчей перед обновлением весов, позволяющая имитировать большой размер батча без увеличения потребления памяти.
Где встречается
- 424. Что такое pipeline parallelism и проблема pipeline bubbles
- 426. Что такое 3D parallelism (data + tensor + pipeline)
- 467. Что такое packing sequences и зачем он нужен
- 468. Почему small batch size (32) ухудшает training стабильность
- 472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации
- 476. Как работает packing для variable-length sequences в FSDP
- 480. Как работает selective activation recomputation
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 669. Как работает связь между SGD и Adam Почему Adam лучше для LLM
- 800+ вопросов
- 46. Настроить cross-encoder reranking
- 223. Fine-tune LoRA для стиля
- 274. Настроить self-training с псевдо-метками