gradient norms
gradient norms
Определение
Величина градиента (обычно L2-норма), используемая для мониторинга стабильности обучения и для принятия решения о gradient clipping.
Где встречается
- 468. Почему small batch size (32) ухудшает training стабильность
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 800+ вопросов
- 67. Реализовать latent reasoning (∇-Reasoner)
- 244. Fine-tune QLoRA на 1 GPU
- 273. Реализовать curriculum learning