中文翻译暂不可用,显示俄语原文。
sparse attention
sparse attention
Определение
Механизм внимания, вычисляющий attention только для выбранных пар токенов (локальное окно + глобальные), снижая сложность до O(n·k·d) и позволяя обрабатывать длинные контексты.
Где встречается
- 210. Что такое chunked prefill и зачем он нужен
- 276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
- 281. Что такое sliding window attention и зачем он в Mistral
- 283. Что такое selective attention в контексте long context обработки
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 425. Как работает sequence parallelism в контексте LLM
- 474. Как работает FlashAttention для training (не только inference)
- 629. Как работает sliding window attention в Mistral и Longformer
- 632. Как работает Infini-attention (Google, 2024) для бесконечного контекста
- 641. Что такое grouped-query attention (GQA) как компромисс для long context
- 646. Как работает attention с линейной сложностью (Linformer, Performer, Longformer)
- 650. Что такое memory-efficient attention для long context на 8x H100
- 668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
- 716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context