ReLU attention

ReLU attention

Определение

Вариант механизма внимания, заменяющий softmax на ReLU с последующей нормализацией, что обнуляет отрицательные логиты и уменьшает эффект attention sink.

Где встречается

Навигация