AdamW
AdamW
Определение
Вариант Adam с корректным разделением weight decay и L2-регуляризации, стандартный оптимизатор для обучения и fine-tuning трансформерных моделей. Часто используется с cosine scheduler и learning rate ~1e-5.
Где встречается
- 29. Как fine-tune модель для следования сложным инструкциям
- 35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)
- 329. Как обучается reward model для RLHF и как избегать reward hacking
- 363. Как работает Whisper (architecture, tokenization, training) для ASR
- 469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
- 485. Как вы дебажите training instability (loss spikes, divergence)
- 539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
- 659. Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)
- 665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
- 669. Как работает связь между SGD и Adam Почему Adam лучше для LLM
- 680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)
- 56. Реализовать diffusion LLM (PLANNER)
- 60. Настроить гибрид (Mamba + Attention)
- 65. Реализовать process reward model
- 229. Fine-tune embedding под домен
- 298. Fine-tune embedding для юридического домена