Knowledge Portal

aivaro.ru

  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Тесты
  • Поиск
✈Telegram @AetSeidhe
RUEN中文
…
Оглавление/Вики/QK^T

QK^T

QK^T

Определение

Операция скалярного произведения запросов и ключей (QK^T) в механизме attention. На аппаратном уровне может быть ускорена с помощью Tensor Cores (например, в H100).

Где встречается

  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминarchitecture

Обратные ссылки (17)

  • Индекс терминов
  • Как вы детектируете и фиксите attention sinks в длинных контекстах?
  • Как работает FlashAttention для training (не только inference)?
  • Как работает FlashAttention математически (tiling, recomputation, не материализуя S)?
  • Как работает FlashAttention-3 технически? Чем отличается от FA2?
  • Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется?
  • Как работает attention математически? Выведите формулу scaled dot-product attention.
  • Как работает attention с линейной сложностью (Linformer, Performer, Longformer)?
  • Как работает forward pass LLM: от токена до вероятности следующего токена?
  • Как работают Tensor Cores в H100/B200 и для чего они нужны?
  • Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс?
  • Что такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
  • Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3?
  • Что такое attention sink и почему он возникает в длинных контекстах?
  • Что такое bank conflicts в shared memory и как их избежать?
  • Что такое memory coalescing и почему оно важно для attention?
  • Что такое memory-efficient attention для long context на 8x H100?