Поиск

wikiLinear attention
# Linear attention ## Определение Вариант механизма внимания, заменяющий softmax на другую функцию (например, ядерную аппроксимацию), что позволяет изменить порядок умножения и…
wikiScaled dot-product attention
# Scaled dot-product attention ## Определение Механизм внимания в Transformer, вычисляемый по формуле softmax(QK^T/√d_k)V, где масштабирование…
wikisparse attention
# sparse attention ## Определение Механизм внимания, вычисляющий attention только для выбранных пар токенов (локальное окно + глобальные), снижая сложность до O(n…
wikifull attention
# full attention ## Определение Стандартный механизм самовнимания (self-attention) с квадратичной сложностью O(n²) по длине последовательности, используемый как эталон для…
wikiattention masking
# attention masking ## Определение Техника, ограничивающая область внимания модели; используется для игнорирования padding при packing последовательностей или для реализации авторегрессионной генерации…
wikiMulti-Head Attention
# Multi-Head Attention ## Определение Ключевой компонент трансформера, выполняющий операцию внимания параллельно в нескольких головах с разными проекциями; каждая голова учится…
wikiGrouped-Query Attention
# Grouped-Query Attention ## Определение Вариант механизма внимания, в котором несколько голов запросов разделяют общие группы ключей и значений (KV). Компромисс…
wikiAdditive attention
# Additive attention ## Определение Механизм внимания с функцией сходства v^T tanh(W_q Q + W_k K), более выразительный за…
wikiMulti-Query Attention
# Multi-Query Attention ## Определение Механизм внимания, где все головы запросов используют общий набор ключей-значений для экономии KV-кеша. ## Где…
wikicross-layer attention
# cross-layer attention ## Определение Механизм внимания, который позволяет токену на одном слое сети обращаться к представлениям другого слоя, а не…
wikiLongformer
# Longformer ## Определение Модель-трансформер с разреженным вниманием, комбинирующая sliding window attention и глобальные токены для эффективной обработки длинных документов. ## Где…
wikiattention normalization
# attention normalization ## Определение Модификация softmax-функции, позволяющая выдавать нулевые веса для нерелевантных токенов (например, sparse softmax или ReLU attention), используется…
wikiLSH attention
# LSH attention ## Определение Механизм внимания, использующий Locality-Sensitive Hashing для приближённого вычисления весов внимания, что снижает вычислительную сложность. ## Где встречается…
wikiattention sink
…Как вы детектируете и фиксите attention sinks в длинных контекстах|286. Как вы детектируете и фиксите attention sinks в длинных…
wikiattention metrics
…Что такое selective attention в контексте long context обработки|283. Что такое selective attention в контексте long context обработки]] - [[286…
wikiBigBird
# BigBird ## Определение Модель со sparse attention, комбинирующая глобальное, локальное и случайное внимание для эффективной работы с длинными контекстами. ## Где встречается…
wikigated attention
# gated attention ## Определение Механизм внимания с обучаемым вентилем, который регулирует вклад каждого токена, что помогает фиксировать attention sinks и улучшать…
answerКак работает attention математически? Выведите формулу scaled dot-product attention.
…Multi-head attention как расширение **[[Вики/Attention\|Multi-head attention]]** запускает [[Вики/Attention\|scaled dot-product attention]] несколько раз (h…
answerКак вы детектируете и фиксите attention sinks в длинных контекстах?
…Gated attention (GA) [[Вики/gated attention\|Gated attention]] добавляет обучаемый вентиль, который регулирует вклад каждого токена в [[Вики/Attention\|attention…
wikiAttention
# Attention ## Определение Механизм трансформеров, вычисляющий Attention(Q,K,V)=softmax(QK^T/√d_k)V. Позволяет модели фокусироваться на релевантных…
wikiMulti-Latent Attention
# Multi-Latent Attention ## Определение Сжатие KV-кеша в латентное пространство, более эффективное, чем GQA. ## Где встречается - [[277. Что такое multi…
wikiReLU attention
# ReLU attention ## Определение Вариант механизма внимания, заменяющий softmax на ReLU с последующей нормализацией, что обнуляет отрицательные логиты и уменьшает эффект…
answerКак работает attention между слоями (cross-layer attention) в современных архитектурах?
…Как работает attention между слоями (cross-layer attention) в современных архитектурах? ## Краткий тезис attention|Cross-layer attention — это механизм, при…
wikiMemory-efficient attention
# Memory-efficient attention ## Определение Совокупность алгоритмов (FlashAttention, PagedAttention) и системных оптимизаций, позволяющих обрабатывать сверхдлинные последовательности на ограниченном числе GPU за…
wikiglobal attention
# global attention ## Определение Механизм внимания, при котором определённые токены могут attend ко всем остальным и наоборот, что позволяет обрабатывать длинные…
wikiCross-attention
# Cross-attention ## Определение Механизм внимания, при котором запросы из одной последовательности (например, декодер) обращаются к ключам и значениям другой последовательности…
wikiAttention heads
…Как работает Multi-query attention (MQA) для long context|640. Как работает Multi-query attention (MQA) для long context]] - [[800…
answerЧто такое selective attention в контексте long context обработки?
…квадратичная сложность Стандартный **[[Вики/Attention\|механизм внимания]] ([[Вики/Attention\|attention]])** в трансформерах вычисляет попарные веса между всеми токенами последовательности. Для…
wikiattention entropy
# attention entropy ## Определение Мера распределения весов внимания; низкая энтропия (меньше 1.0) указывает на наличие attention sink — чрезмерной фокусировки на…
wikiReformer
# Reformer ## Определение Эффективная архитектура Transformer, использующая LSH attention (Locality-Sensitive Hashing) для аппроксимации внимания, что позволяет работать с длинными контекстами…
wikimax attention weight
# max attention weight ## Определение Метрика для детекции attention sinks: максимальный вес внимания на первый токен; значение >0.3 указывает на…
answerЧто такое attention sink и почему он возникает в длинных контекстах?
…Для борьбы используют **sliding window attention**, **attention|gated attention** и модификации нормализации. --- ## 1. Термин: Attention sink (сток внимания) [[Вики/sink…
wikiFalcon
# Falcon ## Определение Открытая языковая модель с Multi-Query Attention (одна группа ключей/значений), оптимизированная для работы с длинными контекстами. ## Где…
wikiContext vector
# Context vector ## Определение Взвешенная сумма значений V с весами attention, содержащая информацию из всех значений с акцентом на наиболее релевантные…
wikiКачество относительно full attention
# Качество относительно full attention ## Определение Мера близости результатов (loss, accuracy) модели с аппроксимацией внимания к модели с полным attention при…
wikidilated sliding window
…Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention и зачем он в…
wikiInfini-attention
# Infini-attention ## Определение Модификация механизма внимания Transformer, добавляющая рекуррентную память для обработки теоретически бесконечных последовательностей с линейной сложностью. ## Где встречается…
wikiresidual connections
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiRWKV
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiCustom CUDA kernel
# Custom CUDA kernel ## Определение Пользовательское ядро CUDA, реализующее attention для работы с разрозненными физическими блоками памяти, оптимизированное для paged attention…
wikiSelective Attention
# Selective Attention ## Определение Метод обработки длинных контекстов, при котором внимание вычисляется только для подмножества наиболее важных токенов, снижая сложность с…
wikiAttention patterns
# Attention patterns ## Определение Распределение весов внимания модели по токенам; визуализация этих паттернов помогает анализировать, на какие части входа модель обращает…
wikiCopy-on-write
…Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…
answerКак работает attention математически (Q, K, V) и как вычислительная сложность масштабируется?
…Q, K, V Формула [[Вики/Scaled dot-product attention\|scaled dot-product attention]]: `[[Вики/Attention\|Attention]](Q, K, V) = [[Вики…
wikiring attention
# ring attention ## Определение Техника вычисления attention для длинных последовательностей, при которой GPU образуют кольцо и циклически обмениваются блоками KV-кэша…
answerЧто такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они?
…Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они? ## Краткий тезис **Attention|Multi-Query Attention…
answerКак работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?
…Infini-attention (Google) и рекуррентные механизмы [[Вики/Infini-attention\|Infini-attention]] (Google, 2024) добавляет к обычному [[Вики/Attention\|attention]] рекуррентную…
wikiREALM
# REALM ## Определение Архитектура, интегрирующая retrieval и генерацию с помощью cross-attention между скрытыми состояниями энкодера и декодера. ## Где встречается - [[299…
wikiALBERT
# ALBERT ## Определение Архитектура трансформера с разделением параметров между слоями для уменьшения числа параметров, но без cross-layer attention. ## Где встречается…
wikiExact attention
# Exact attention ## Определение Механизм внимания без приближений, в отличие от sparse или linear attention; FlashAttention реализует exact attention с линейной…