Поиск
- wikiOnline softmax
…Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[425. Как работает…
- wikiTMA
…Как работает FlashAttention-3 технически Чем отличается от FA2]] - [[844. Как работает FlashAttention-3 математически|844. Как работает FlashAttention-3…
- wikiFlash Attention 2
…Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[425. Как работает…
- wikiFlashAttention-3
# FlashAttention-3 ## Определение Версия FlashAttention для GPU Hopper, использующая WGMMA, TMA, FP8 и partitioning 128×128 для ускорения в 2…
- wikirecomputation
…Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[447. Как работает…
- wikidouble buffering
…Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3]] - [[844. Как работает FlashAttention-3 математически…
- wikishared state
# shared state ## Определение Быстрая память на чипе GPU, используемая для tiling и оптимизации операций, таких как FlashAttention, а также паттерн…
- wikitiling
…Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[324. Что такое…
- wikiWGMMA
…Как работает FlashAttention-3 технически Чем отличается от FA2]] - [[844. Как работает FlashAttention-3 математически|844. Как работает FlashAttention-3…
- wikiIO-aware
…Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[474. Как работает…
- wikiHBM
…Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[305. Как вы…
- wikirowmax
# rowmax ## Определение Поэлементная операция над строками для вычисления максимума значений, используемая в математике FlashAttention. ## Где встречается - [[667. Как работает FlashAttention…
- wikihead_dim
…Используется при настройке FlashAttention. ## Где встречается - [[54. Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k…
- wikiH100
…Как работает FlashAttention-3 технически Чем отличается от FA2|432. Как работает FlashAttention-3 технически Чем отличается от FA2]] - [[458…
- wikiIO-awareness
# IO-awareness ## Определение Принцип работы алгоритмов, таких как FlashAttention, при котором оптимизация производится с учётом операций ввода-вывода между уровнями…
- wikiasync copy
…Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] ## Навигация - [[00. Индекс…
- wikiExact attention
# Exact attention ## Определение Механизм внимания без приближений, в отличие от sparse или linear attention; FlashAttention реализует exact attention с линейной…
- wikiAsynchronous SM-to-SM copy
…Как работает FlashAttention для training (не только inference)|474. Как работает FlashAttention для training (не только inference)]] ## Навигация - [[00. Индекс…
- wikiМатериализация матрицы S
# Материализация матрицы S ## Определение Явное создание и хранение матрицы S в памяти; FlashAttention избегает этого для экономии ресурсов. ## Где встречается…
- wikiFlashAttention
…Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[305. Как вы…
- wikiBlock-sparse attention
…Как работает FlashAttention математически (tiling, recomputation, не материализуя S)|667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)]] ## Навигация…
- wikion-chip memory
# on-chip memory ## Определение Память на кристалле GPU (shared memory, регистры), используемая для блоков attention, например в FlashAttention-3. ## Где…
- wikiA100
…Как работает FlashAttention-3 математически|844. Как работает FlashAttention-3 математически]] - [[800+ вопросов|800+ вопросов]] - [[4. Настроить GPU Direct RDMA…
- answerКак работает FlashAttention математически (tiling, recomputation, не материализуя S)?
…Без [[Вики/FlashAttention\|FlashAttention]] потребовалось бы ~10 GB только на матрицу `S` для одного слоя. С [[Вики/FlashAttention\|FlashAttention]] — ~80…
- answerКак работает FlashAttention для training (не только inference)?
…Как работает FlashAttention для training (не только inference)? ## Краткий тезис [[Вики/FlashAttention\|FlashAttention]] — это [[Вики/IO-aware\|IO-aware]] алгоритм…
- answerЧто такое FlashAttention с точки зрения CUDA programming?
…Что такое FlashAttention с точки зрения CUDA programming? ## Краткий тезис [[Вики/FlashAttention\|FlashAttention]] — это [[Вики/IO-aware\|IO-aware]] алгоритм…
- wikireduce
…Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[667. Как работает…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить Hyena vs FlashAttention на 128k
…Цель задачи Эмпирически сравнить две архитектуры внимания — [[Вики/Hyena Operator\|Hyena]] (O(n) по памяти) и [[Вики/FlashAttention\|FlashAttention]] (O…
- wikicp.async.bulk
…Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3|706. Что такое TMA (Tensor Memory…
- wikisafari
…Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikihyena-dna
…Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikixFormers
# xFormers ## Определение Библиотека Meta с оптимизированными реализациями механизмов внимания (attention), включая FlashAttention. Обеспечивает эффективный инференс и обучение за счёт padding…
- wikifilter_order
…Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikinum_heads
…Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiasynchronous transaction barriers
…Как работает FlashAttention-3 математически|844. Как работает FlashAttention-3 математически]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiCUDA 11.8
…Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiSafetensors
…Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] - [[224. vLLM кластер на 4 GPU|224…
- wikiconvolution
…Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikilog-log scale
…Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiсубквадратичное внимание
…Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiFP8
…Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3]] - [[844. Как работает FlashAttention-3 математически…
- answerЧто такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3?
…Проблема в FlashAttention-2 [[Вики/FlashAttention\|FlashAttention-2]] ([[Вики/Flash Attention 2\|FA2]]) — алгоритм точного [[Вики/Attention\|attention]], который разбивает…
- wikitorch.cuda.set_per_process_memory_fraction
…Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiFlashDecoding
…Как работает FlashAttention математически (tiling, recomputation, не материализуя S)|667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)]] ## Навигация…
- wikiArithmetic intensity
…Как работает FlashAttention-3 технически Чем отличается от FA2|432. Как работает FlashAttention-3 технически Чем отличается от FA2]] - [[437…
- wikitorch.cuda.max_memory_allocated
…Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikicompute-bound
…Как работает FlashAttention для training (не только inference)|474. Как работает FlashAttention для training (не только inference)]] - [[703. Как работает…
- wikitraining
…Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3|706. Что такое TMA (Tensor Memory…
- wikiA10G
…Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikicopy with padding
…Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3|706. Что такое TMA (Tensor Memory…