effective batch size
effective batch size
Определение
Произведение micro_batch_size на количество шагов накопления градиента (gradient accumulation). Определяет фактический размер батча для шага оптимизатора, симулируя большой батч при ограниченной памяти.
Где встречается
- 468. Почему small batch size (32) ухудшает training стабильность
- 472. Почему gradient accumulation эквивалентен большому batch с точки зрения оптимизации