global attention
global attention
Определение
Механизм внимания, при котором определённые токены могут attend ко всем остальным и наоборот, что позволяет обрабатывать длинные последовательности с линейной сложностью O(n) на глобальный токен. Используется в Longformer в комбинации со sliding window attention.
Где встречается
- 629. Как работает sliding window attention в Mistral и Longformer
- 668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
- 800+ вопросов