Поиск

  • wikiLinear attention

    # Linear attention ## Определение Вариант механизма внимания, заменяющий softmax на другую функцию (например, ядерную аппроксимацию), что позволяет изменить порядок умножения и…

  • wikiScaled dot-product attention

    # Scaled dot-product attention ## Определение Механизм внимания в Transformer, вычисляемый по формуле softmax(QK^T/√d_k)V, где масштабирование…

  • wikisparse attention

    # sparse attention ## Определение Механизм внимания, вычисляющий attention только для выбранных пар токенов (локальное окно + глобальные), снижая сложность до O(n…

  • wikifull attention

    # full attention ## Определение Стандартный механизм самовнимания (self-attention) с квадратичной сложностью O(n²) по длине последовательности, используемый как эталон для…

  • wikiattention masking

    # attention masking ## Определение Техника, ограничивающая область внимания модели; используется для игнорирования padding при packing последовательностей или для реализации авторегрессионной генерации…

  • wikiMulti-Head Attention

    # Multi-Head Attention ## Определение Ключевой компонент трансформера, выполняющий операцию внимания параллельно в нескольких головах с разными проекциями; каждая голова учится…

  • wikiGrouped-Query Attention

    # Grouped-Query Attention ## Определение Вариант механизма внимания, в котором несколько голов запросов разделяют общие группы ключей и значений (KV). Компромисс…

  • wikiAdditive attention

    # Additive attention ## Определение Механизм внимания с функцией сходства v^T tanh(W_q Q + W_k K), более выразительный за…

  • wikiMulti-Query Attention

    # Multi-Query Attention ## Определение Механизм внимания, где все головы запросов используют общий набор ключей-значений для экономии KV-кеша. ## Где…

  • wikicross-layer attention

    # cross-layer attention ## Определение Механизм внимания, который позволяет токену на одном слое сети обращаться к представлениям другого слоя, а не…

  • wikiLongformer

    # Longformer ## Определение Модель-трансформер с разреженным вниманием, комбинирующая sliding window attention и глобальные токены для эффективной обработки длинных документов. ## Где…

  • wikiattention normalization

    # attention normalization ## Определение Модификация softmax-функции, позволяющая выдавать нулевые веса для нерелевантных токенов (например, sparse softmax или ReLU attention), используется…

  • wikiLSH attention

    # LSH attention ## Определение Механизм внимания, использующий Locality-Sensitive Hashing для приближённого вычисления весов внимания, что снижает вычислительную сложность. ## Где встречается…

  • wikiattention sink

    …Как вы детектируете и фиксите attention sinks в длинных контекстах|286. Как вы детектируете и фиксите attention sinks в длинных…

  • wikiattention metrics

    …Что такое selective attention в контексте long context обработки|283. Что такое selective attention в контексте long context обработки]] - [[286…

  • wikiBigBird

    # BigBird ## Определение Модель со sparse attention, комбинирующая глобальное, локальное и случайное внимание для эффективной работы с длинными контекстами. ## Где встречается…

  • wikigated attention

    # gated attention ## Определение Механизм внимания с обучаемым вентилем, который регулирует вклад каждого токена, что помогает фиксировать attention sinks и улучшать…

  • answerКак работает attention математически? Выведите формулу scaled dot-product attention.

    …Multi-head attention как расширение **[[Вики/Attention\|Multi-head attention]]** запускает [[Вики/Attention\|scaled dot-product attention]] несколько раз (h…

  • answerКак вы детектируете и фиксите attention sinks в длинных контекстах?

    …Gated attention (GA) [[Вики/gated attention\|Gated attention]] добавляет обучаемый вентиль, который регулирует вклад каждого токена в [[Вики/Attention\|attention

  • wikiAttention

    # Attention ## Определение Механизм трансформеров, вычисляющий Attention(Q,K,V)=softmax(QK^T/√d_k)V. Позволяет модели фокусироваться на релевантных…

  • wikiMulti-Latent Attention

    # Multi-Latent Attention ## Определение Сжатие KV-кеша в латентное пространство, более эффективное, чем GQA. ## Где встречается - [[277. Что такое multi…

  • wikiReLU attention

    # ReLU attention ## Определение Вариант механизма внимания, заменяющий softmax на ReLU с последующей нормализацией, что обнуляет отрицательные логиты и уменьшает эффект…

  • answerКак работает attention между слоями (cross-layer attention) в современных архитектурах?

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах? ## Краткий тезис attention|Cross-layer attention — это механизм, при…

  • wikiMemory-efficient attention

    # Memory-efficient attention ## Определение Совокупность алгоритмов (FlashAttention, PagedAttention) и системных оптимизаций, позволяющих обрабатывать сверхдлинные последовательности на ограниченном числе GPU за…

  • wikiglobal attention

    # global attention ## Определение Механизм внимания, при котором определённые токены могут attend ко всем остальным и наоборот, что позволяет обрабатывать длинные…

  • wikiCross-attention

    # Cross-attention ## Определение Механизм внимания, при котором запросы из одной последовательности (например, декодер) обращаются к ключам и значениям другой последовательности…

  • wikiAttention heads

    …Как работает Multi-query attention (MQA) для long context|640. Как работает Multi-query attention (MQA) для long context]] - [[800…

  • answerЧто такое selective attention в контексте long context обработки?

    …квадратичная сложность Стандартный **[[Вики/Attention\|механизм внимания]] ([[Вики/Attention\|attention]])** в трансформерах вычисляет попарные веса между всеми токенами последовательности. Для…

  • wikiattention entropy

    # attention entropy ## Определение Мера распределения весов внимания; низкая энтропия (меньше 1.0) указывает на наличие attention sink — чрезмерной фокусировки на…

  • wikiReformer

    # Reformer ## Определение Эффективная архитектура Transformer, использующая LSH attention (Locality-Sensitive Hashing) для аппроксимации внимания, что позволяет работать с длинными контекстами…

  • wikimax attention weight

    # max attention weight ## Определение Метрика для детекции attention sinks: максимальный вес внимания на первый токен; значение >0.3 указывает на…

  • answerЧто такое attention sink и почему он возникает в длинных контекстах?

    …Для борьбы используют **sliding window attention**, **attention|gated attention** и модификации нормализации. --- ## 1. Термин: Attention sink (сток внимания) [[Вики/sink…

  • wikiFalcon

    # Falcon ## Определение Открытая языковая модель с Multi-Query Attention (одна группа ключей/значений), оптимизированная для работы с длинными контекстами. ## Где…

  • wikiContext vector

    # Context vector ## Определение Взвешенная сумма значений V с весами attention, содержащая информацию из всех значений с акцентом на наиболее релевантные…

  • wikiКачество относительно full attention

    # Качество относительно full attention ## Определение Мера близости результатов (loss, accuracy) модели с аппроксимацией внимания к модели с полным attention при…

  • wikidilated sliding window

    …Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…

  • wikiInfini-attention

    # Infini-attention ## Определение Модификация механизма внимания Transformer, добавляющая рекуррентную память для обработки теоретически бесконечных последовательностей с линейной сложностью. ## Где встречается…

  • wikiresidual connections

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikiRWKV

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikiCustom CUDA kernel

    # Custom CUDA kernel ## Определение Пользовательское ядро CUDA, реализующее attention для работы с разрозненными физическими блоками памяти, оптимизированное для paged attention

  • wikiSelective Attention

    # Selective Attention ## Определение Метод обработки длинных контекстов, при котором внимание вычисляется только для подмножества наиболее важных токенов, снижая сложность с…

  • wikiAttention patterns

    # Attention patterns ## Определение Распределение весов внимания модели по токенам; визуализация этих паттернов помогает анализировать, на какие части входа модель обращает…

  • wikiCopy-on-write

    …Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…

  • answerКак работает attention математически (Q, K, V) и как вычислительная сложность масштабируется?

    …Q, K, V Формула [[Вики/Scaled dot-product attention\|scaled dot-product attention]]: `[[Вики/Attention\|Attention]](Q, K, V) = [[Вики…

  • wikiring attention

    # ring attention ## Определение Техника вычисления attention для длинных последовательностей, при которой GPU образуют кольцо и циклически обмениваются блоками KV-кэша…

  • answerЧто такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они?

    …Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они? ## Краткий тезис **Attention|Multi-Query Attention

  • answerКак работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?

    …Infini-attention (Google) и рекуррентные механизмы [[Вики/Infini-attention\|Infini-attention]] (Google, 2024) добавляет к обычному [[Вики/Attention\|attention]] рекуррентную…

  • wikiREALM

    # REALM ## Определение Архитектура, интегрирующая retrieval и генерацию с помощью cross-attention между скрытыми состояниями энкодера и декодера. ## Где встречается - [[299…

  • wikiALBERT

    # ALBERT ## Определение Архитектура трансформера с разделением параметров между слоями для уменьшения числа параметров, но без cross-layer attention. ## Где встречается…

  • wikiExact attention

    # Exact attention ## Определение Механизм внимания без приближений, в отличие от sparse или linear attention; FlashAttention реализует exact attention с линейной…