Adam optimizer
Adam optimizer
Определение
Адаптивный алгоритм оптимизации, использующий оценки первого и второго моментов градиентов (mean и variance). Широко применяется для обучения LLM благодаря эффективной работе с зашумленными градиентами и способности находить плоские минимумы.
Где встречается
- 461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
- 465. Как работает gradient checkpointing в DeepSpeed
- 468. Почему small batch size (32) ухудшает training стабильность
- 469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
- 478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)
- 482. Как работает QLoRA (Quantized LoRA) для training
- 656. Как работает кросс-энтропия (cross-entropy loss) для LLM обучения
- 659. Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 669. Как работает связь между SGD и Adam Почему Adam лучше для LLM
- 800+ вопросов
- 273. Реализовать curriculum learning