中文翻译暂不可用,显示俄语原文。
Multi-Head Attention
Multi-Head Attention
Определение
Ключевой компонент трансформера, выполняющий операцию внимания параллельно в нескольких головах с разными проекциями; каждая голова учится фокусироваться на различных аспектах входных данных.
Где встречается
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
- 276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 434. Как работает grouped-query attention (GQA) и как trade-off speedquality
- 543. Как работает Whisper архитектурно для ASR (Automatic Speech Recognition)
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
- 632. Как работает Infini-attention (Google, 2024) для бесконечного контекста
- 640. Как работает Multi-query attention (MQA) для long context
- 641. Что такое grouped-query attention (GQA) как компромисс для long context
- 642. Как вы реализуете KV cache для 1M токенов на 8x H100
- 651. Как работает attention математически Выведите формулу scaled dot-product attention.
- 652. Почему в формуле attention нужно делить на √d_k Что будет без масштабирования
- 668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
- 672. Что такое residual connections и зачем они нужны в трансформере
- 673. Как работает нормализация перед attention (pre-norm) vs после (post-norm)
- 676. Что такое residual stream и как он связан с информационным потоком в трансформере
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 714. RWKV (RNN with Transformer attention) как комбинирует RNN и attention
- 800+ вопросов