attention normalizationattention normalization Определение Модификация softmax-функции, позволяющая выдавать нулевые веса для нерелевантных токенов (например, sparse softmax или ReLU attention), используется для борьбы с attention sink. Где встречается 628. Что такое attention sink и почему он возникает в длинных контекстах 800+ вопросов Навигация Индекс терминов Индекс разборов Оглавление
attention normalization Определение Модификация softmax-функции, позволяющая выдавать нулевые веса для нерелевантных токенов (например, sparse softmax или ReLU attention), используется для борьбы с attention sink. Где встречается 628. Что такое attention sink и почему он возникает в длинных контекстах 800+ вопросов Навигация Индекс терминов Индекс разборов Оглавление