Поиск

  • wikiOnline softmax

    …Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[425. Как работает…

  • wikiTMA

    …Как работает FlashAttention-3 технически Чем отличается от FA2]] - [[844. Как работает FlashAttention-3 математически|844. Как работает FlashAttention-3…

  • wikiFlash Attention 2

    …Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[425. Как работает…

  • wikiFlashAttention-3

    # FlashAttention-3 ## Определение Версия FlashAttention для GPU Hopper, использующая WGMMA, TMA, FP8 и partitioning 128×128 для ускорения в 2…

  • wikirecomputation

    …Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[447. Как работает…

  • wikidouble buffering

    …Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3]] - [[844. Как работает FlashAttention-3 математически…

  • wikishared state

    # shared state ## Определение Быстрая память на чипе GPU, используемая для tiling и оптимизации операций, таких как FlashAttention, а также паттерн…

  • wikitiling

    …Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[324. Что такое…

  • wikiWGMMA

    …Как работает FlashAttention-3 технически Чем отличается от FA2]] - [[844. Как работает FlashAttention-3 математически|844. Как работает FlashAttention-3…

  • wikiIO-aware

    …Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[474. Как работает…

  • wikiHBM

    …Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[305. Как вы…

  • wikirowmax

    # rowmax ## Определение Поэлементная операция над строками для вычисления максимума значений, используемая в математике FlashAttention. ## Где встречается - [[667. Как работает FlashAttention

  • wikihead_dim

    …Используется при настройке FlashAttention. ## Где встречается - [[54. Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k…

  • wikiH100

    …Как работает FlashAttention-3 технически Чем отличается от FA2|432. Как работает FlashAttention-3 технически Чем отличается от FA2]] - [[458…

  • wikiIO-awareness

    # IO-awareness ## Определение Принцип работы алгоритмов, таких как FlashAttention, при котором оптимизация производится с учётом операций ввода-вывода между уровнями…

  • wikiasync copy

    …Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] ## Навигация - [[00. Индекс…

  • wikiExact attention

    # Exact attention ## Определение Механизм внимания без приближений, в отличие от sparse или linear attention; FlashAttention реализует exact attention с линейной…

  • wikiAsynchronous SM-to-SM copy

    …Как работает FlashAttention для training (не только inference)|474. Как работает FlashAttention для training (не только inference)]] ## Навигация - [[00. Индекс…

  • wikiМатериализация матрицы S

    # Материализация матрицы S ## Определение Явное создание и хранение матрицы S в памяти; FlashAttention избегает этого для экономии ресурсов. ## Где встречается…

  • wikiFlashAttention

    …Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[305. Как вы…

  • wikiBlock-sparse attention

    …Как работает FlashAttention математически (tiling, recomputation, не материализуя S)|667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)]] ## Навигация…

  • wikion-chip memory

    # on-chip memory ## Определение Память на кристалле GPU (shared memory, регистры), используемая для блоков attention, например в FlashAttention-3. ## Где…

  • wikiA100

    …Как работает FlashAttention-3 математически|844. Как работает FlashAttention-3 математически]] - [[800+ вопросов|800+ вопросов]] - [[4. Настроить GPU Direct RDMA…

  • answerКак работает FlashAttention математически (tiling, recomputation, не материализуя S)?

    …Без [[Вики/FlashAttention\|FlashAttention]] потребовалось бы ~10 GB только на матрицу `S` для одного слоя. С [[Вики/FlashAttention\|FlashAttention]] — ~80…

  • answerКак работает FlashAttention для training (не только inference)?

    …Как работает FlashAttention для training (не только inference)? ## Краткий тезис [[Вики/FlashAttention\|FlashAttention]] — это [[Вики/IO-aware\|IO-aware]] алгоритм…

  • answerЧто такое FlashAttention с точки зрения CUDA programming?

    …Что такое FlashAttention с точки зрения CUDA programming? ## Краткий тезис [[Вики/FlashAttention\|FlashAttention]] — это [[Вики/IO-aware\|IO-aware]] алгоритм…

  • wikireduce

    …Что такое FlashAttention с точки зрения CUDA programming|304. Что такое FlashAttention с точки зрения CUDA programming]] - [[667. Как работает…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить Hyena vs FlashAttention на 128k

    …Цель задачи Эмпирически сравнить две архитектуры внимания — [[Вики/Hyena Operator\|Hyena]] (O(n) по памяти) и [[Вики/FlashAttention\|FlashAttention]] (O…

  • wikicp.async.bulk

    …Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3|706. Что такое TMA (Tensor Memory…

  • wikisafari

    …Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikihyena-dna

    …Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikixFormers

    # xFormers ## Определение Библиотека Meta с оптимизированными реализациями механизмов внимания (attention), включая FlashAttention. Обеспечивает эффективный инференс и обучение за счёт padding…

  • wikifilter_order

    …Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikinum_heads

    …Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiasynchronous transaction barriers

    …Как работает FlashAttention-3 математически|844. Как работает FlashAttention-3 математически]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiCUDA 11.8

    …Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiSafetensors

    …Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] - [[224. vLLM кластер на 4 GPU|224…

  • wikiconvolution

    …Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikilog-log scale

    …Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiсубквадратичное внимание

    …Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiFP8

    …Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3]] - [[844. Как работает FlashAttention-3 математически…

  • answerЧто такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3?

    …Проблема в FlashAttention-2 [[Вики/FlashAttention\|FlashAttention-2]] ([[Вики/Flash Attention 2\|FA2]]) — алгоритм точного [[Вики/Attention\|attention]], который разбивает…

  • wikitorch.cuda.set_per_process_memory_fraction

    …Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiFlashDecoding

    …Как работает FlashAttention математически (tiling, recomputation, не материализуя S)|667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)]] ## Навигация…

  • wikiArithmetic intensity

    …Как работает FlashAttention-3 технически Чем отличается от FA2|432. Как работает FlashAttention-3 технически Чем отличается от FA2]] - [[437…

  • wikitorch.cuda.max_memory_allocated

    …Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikicompute-bound

    …Как работает FlashAttention для training (не только inference)|474. Как работает FlashAttention для training (не только inference)]] - [[703. Как работает…

  • wikitraining

    …Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3|706. Что такое TMA (Tensor Memory…

  • wikiA10G

    …Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs FlashAttention на 128k]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikicopy with padding

    …Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3|706. Что такое TMA (Tensor Memory…