English translation is not available yet. Showing Russian content.
gradients
gradients
Определение
Градиенты — это производные функции потерь по параметрам модели, используемые для обновления весов при обучении. В контексте LLM градиенты шардируются в оптимизаторе (ZeRO) и аккумулируются при gradient accumulation.