gradient accumulation

Определение

Техника накопления градиентов из нескольких микро-батчей перед обновлением весов, позволяющая имитировать большой размер батча без увеличения потребления памяти.

Где встречается

424. Что такое pipeline parallelism и проблема pipeline bubbles
426. Что такое 3D parallelism (data + tensor + pipeline)
467. Что такое packing sequences и зачем он нужен
468. Почему small batch size (32) ухудшает training стабильность
472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации
476. Как работает packing для variable-length sequences в FSDP
480. Как работает selective activation recomputation
485. Как вы дебажите training instability (loss spikes, divergence)
669. Как работает связь между SGD и Adam Почему Adam лучше для LLM
800+ вопросов
46. Настроить cross-encoder reranking
223. Fine-tune LoRA для стиля
274. Настроить self-training с псевдо-метками

gradient accumulation

gradient accumulation

Определение

Где встречается

Навигация