attention normalization

attention normalization

Определение

Модификация softmax-функции, позволяющая выдавать нулевые веса для нерелевантных токенов (например, sparse softmax или ReLU attention), используется для борьбы с attention sink.

Где встречается

Навигация