Linear attention

Определение

Вариант механизма внимания, заменяющий softmax на другую функцию (например, ядерную аппроксимацию), что позволяет изменить порядок умножения и получить линейную сложность O(n·d²) вместо квадратичной.

Где встречается

276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
474. Как работает FlashAttention для training (не только inference)
626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
629. Как работает sliding window attention в Mistral и Longformer
632. Как работает Infini-attention (Google, 2024) для бесконечного контекста
646. Как работает attention с линейной сложностью (Linformer, Performer, Longformer)
650. Что такое memory-efficient attention для long context на 8x H100
652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
714. RWKV (RNN with Transformer attention) как комбинирует RNN и attention
715. Hyena как заменить attention на свертки, сохранив качество
59. Сравнить архитектуры на reasoning задачах

Linear attention

Linear attention

Определение

Где встречается

Навигация