English translation is not available yet. Showing Russian content.
accumulation steps
accumulation steps
Определение
Техника, при которой градиенты накапливаются за несколько шагов перед обновлением весов. Позволяет увеличить эффективный batch size без роста потребления памяти GPU.
Где встречается
- 461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
- 462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
- 463. Что такое activation recomputation (checkpointing) и зачем оно нужно
- 800+ вопросов