English translation is not available yet. Showing Russian content.
ReLU attention
ReLU attention
Определение
Вариант механизма внимания, заменяющий softmax на ReLU с последующей нормализацией, что обнуляет отрицательные логиты и уменьшает эффект attention sink.