Multi-Head Attention

Определение

Ключевой компонент трансформера, выполняющий операцию внимания параллельно в нескольких головах с разными проекциями; каждая голова учится фокусироваться на различных аспектах входных данных.

Где встречается

206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
434. Как работает grouped-query attention (GQA) и как trade-off speedquality
543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
632. Как работает Infini-attention (Google, 2024) для бесконечного контекста
640. Как работает Multi-query attention (MQA) для long context
641. Что такое grouped-query attention (GQA) как компромисс для long context
642. Как вы реализуете KV cache для 1M токенов на 8x H100
651. Как работает attention математически Выведите формулу scaled dot-product attention.
652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
672. Что такое residual connections и зачем они нужны в трансформере
673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)
676. Что такое residual stream и как он связан с информационным потоком в трансформере
677. Как работает forward pass LLM от токена до вероятности следующего токена
714. RWKV (RNN with Transformer attention) как комбинирует RNN и attention
800+ вопросов

Multi-Head Attention

Multi-Head Attention

Определение

Где встречается

Навигация