AdamW

Определение

Вариант Adam с корректным разделением weight decay и L2-регуляризации, стандартный оптимизатор для обучения и fine-tuning трансформерных моделей. Часто используется с cosine scheduler и learning rate ~1e-5.

Где встречается

29. Как fine-tune модель для следования сложным инструкциям
35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)
329. Как обучается reward model для RLHF и как избегать reward hacking
363. Как работает Whisper (architecture, tokenization, training) для ASR
469. Как работает Mixed Precision Training (FP16 + FP32 master веса)
485. Как вы дебажите training instability (loss spikes, divergence)
539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
659. Что такое Adam optimizer и как работают его параметры (β1, β2, ε, learning rate)
665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)
669. Как работает связь между SGD и Adam Почему Adam лучше для LLM
680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)
56. Реализовать diffusion LLM (PLANNER)
60. Настроить гибрид (Mamba + Attention)
65. Реализовать process reward model
229. Fine-tune embedding под домен
298. Fine-tune embedding для юридического домена

AdamW

AdamW

Определение

Где встречается

Навигация