sparse attention

Определение

Механизм внимания, вычисляющий attention только для выбранных пар токенов (локальное окно + глобальные), снижая сложность до O(n·k·d) и позволяя обрабатывать длинные контексты.

Где встречается

210. Что такое chunked prefill и зачем он нужен
276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
281. Что такое sliding window attention и зачем он в Mistral
283. Что такое selective attention в контексте long context обработки
286. Как вы детектируете и фиксите attention sinks в длинных контекстах
425. Как работает sequence parallelism в контексте LLM
474. Как работает FlashAttention для training (не только inference)
629. Как работает sliding window attention в Mistral и Longformer
632. Как работает Infini-attention (Google, 2024) для бесконечного контекста
641. Что такое grouped-query attention (GQA) как компромисс для long context
646. Как работает attention с линейной сложностью (Linformer, Performer, Longformer)
650. Что такое memory-efficient attention для long context на 8x H100
668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context

sparse attention

sparse attention

Определение

Где встречается

Навигация