ReLU attentionReLU attention Определение Вариант механизма внимания, заменяющий softmax на ReLU с последующей нормализацией, что обнуляет отрицательные логиты и уменьшает эффект attention sink. Где встречается 628. Что такое attention sink и почему он возникает в длинных контекстах Навигация Индекс терминов Индекс разборов Оглавление
ReLU attention Определение Вариант механизма внимания, заменяющий softmax на ReLU с последующей нормализацией, что обнуляет отрицательные логиты и уменьшает эффект attention sink. Где встречается 628. Что такое attention sink и почему он возникает в длинных контекстах Навигация Индекс терминов Индекс разборов Оглавление