AdamW

AdamW

Определение

Вариант Adam с корректным разделением weight decay и L2-регуляризации, стандартный оптимизатор для обучения и fine-tuning трансформерных моделей. Часто используется с cosine scheduler и learning rate ~1e-5.

Где встречается

Навигация