gated attention
gated attention
Определение
Механизм внимания с обучаемым вентилем, который регулирует вклад каждого токена, что помогает фиксировать attention sinks и улучшать обработку длинных контекстов.
Где встречается
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 628. Что такое attention sink и почему он возникает в длинных контекстах
- 800+ вопросов