sparse gradients

sparse gradients

Определение

В LLM многие параметры получают градиенты редко (разреженные градиенты). Adam автоматически увеличивает learning rate для таких параметров, что улучшает обучение.

Где встречается

Навигация