RAdam
RAdam
Определение
Оптимизатор градиентного спуска, исправляющий проблему завышенного learning rate на ранних шагах Adam. Использует верификацию дисперсии адаптивной скорости обучения. Повышает стабильность и скорость сходимости при fine-tuning LLM.