中文翻译暂不可用,显示俄语原文。
attention normalization
attention normalization
Определение
Модификация softmax-функции, позволяющая выдавать нулевые веса для нерелевантных токенов (например, sparse softmax или ReLU attention), используется для борьбы с attention sink.