English translation is not available yet. Showing Russian content.
softmax attention
softmax attention
Определение
Механизм внимания, использующий softmax для получения весов внимания. Может приводить к «острым» распределениям и нестабильности градиентов при больших логитах.
Где встречается
- 2 Как вы решаете проблему lost in the middle при работе с длинными контекстами
- 664. Что такое vanishing exploding gradients в трансформерах и как их предотвратить
- 800+ вопросов