中文翻译暂不可用,显示俄语原文。
RAdam
RAdam
Определение
Оптимизатор градиентного спуска, исправляющий проблему завышенного learning rate на ранних шагах Adam. Использует верификацию дисперсии адаптивной скорости обучения. Повышает стабильность и скорость сходимости при fine-tuning LLM.