English translation is not available yet. Showing Russian content.
SGD
SGD
Определение
Базовый алгоритм оптимизации, обновляющий веса с фиксированной скоростью обучения; чувствителен к шуму градиентов.
Где встречается
- 468. Почему small batch size (32) ухудшает training стабильность
- 469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
- 659. Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)
- 669. Как работает связь между SGD и Adam Почему Adam лучше для LLM
- 718. Что такое Test-Time Training (TTT) слои и как они работают
- 800+ вопросов
- 274. Настроить self-training с псевдо-метками