中文翻译暂不可用,显示俄语原文。
subtract max
subtract max
Определение
Техника численной стабильности softmax: вычитание максимального logit перед вычислением экспоненты предотвращает переполнение. Не решает проблему vanishing gradients при больших значениях.
Где встречается
- 661. Как работает softmax и почему он вызывает проблемы с градиентами при больших logits
- 800+ вопросов