中文翻译暂不可用,显示俄语原文。

attention normalization

attention normalization

Определение

Модификация softmax-функции, позволяющая выдавать нулевые веса для нерелевантных токенов (например, sparse softmax или ReLU attention), используется для борьбы с attention sink.

Где встречается

Навигация