English translation is not available yet. Showing Russian content.
RAdam
RAdam
Определение
Оптимизатор градиентного спуска, исправляющий проблему завышенного learning rate на ранних шагах Adam. Использует верификацию дисперсии адаптивной скорости обучения. Повышает стабильность и скорость сходимости при fine-tuning LLM.