English translation is not available yet. Showing Russian content.
attention normalization
attention normalization
Определение
Модификация softmax-функции, позволяющая выдавать нулевые веса для нерелевантных токенов (например, sparse softmax или ReLU attention), используется для борьбы с attention sink.