Linear attention
Linear attention
Определение
Вариант механизма внимания, заменяющий softmax на другую функцию (например, ядерную аппроксимацию), что позволяет изменить порядок умножения и получить линейную сложность O(n·d²) вместо квадратичной.
Где встречается
- 276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
- 299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
- 474. Как работает FlashAttention для training (не только inference)
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
- 629. Как работает sliding window attention в Mistral и Longformer
- 632. Как работает Infini-attention (Google, 2024) для бесконечного контекста
- 646. Как работает attention с линейной сложностью (Linformer, Performer, Longformer)
- 650. Что такое memory-efficient attention для long context на 8x H100
- 652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
- 668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
- 714. RWKV (RNN with Transformer attention) как комбинирует RNN и attention
- 715. Hyena как заменить attention на свертки, сохранив качество
- 59. Сравнить архитектуры на reasoning задачах