accumulation steps
accumulation steps
Определение
Техника, при которой градиенты накапливаются за несколько шагов перед обновлением весов. Позволяет увеличить эффективный batch size без роста потребления памяти GPU.
Где встречается
- 461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
- 462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
- 463. Что такое activation recomputation (checkpointing) и зачем оно нужно
- 800+ вопросов