Поиск

wikiтрансформер-декодер
# трансформер-декодер ## Определение Архитектура нейросети с каузальным вниманием, генерирующая токены последовательно; лежит в основе авторегрессионных моделей (GPT, Chameleon). ## Где встречается…
wikipost-norm
# post-norm ## Определение Схема трансформера, в которой LayerNorm применяется после сложения residual (output = LayerNorm(x + F(x))). Оригинальный вариант, склонный…
wikiJamba
…Как работает Mamba (State Space Model) и чем она лучше трансформера]] - [[716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для…
wikiS4
…Как работает Mamba (State Space Model) и чем она лучше трансформера]] - [[716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для…
wikipre-normalization
# pre-normalization ## Определение Pre-normalization (pre-norm) — размещение Layer Normalisation перед подуровнями (attention/FFN) в трансформере, а не после. Это…
wikiinductive biases
# inductive biases ## Определение Что такое индуктивные biases трансформеров ## Где встречается - [[668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity…
wikiPruning heads
# Pruning heads ## Определение Удаление неактивных голов внимания в трансформере для уменьшения избыточности и ускорения инференса. ## Где встречается - [[668. Что такое…
wikigated residual connections
# gated residual connections ## Определение Вариант residual connections с дополнительным вентилем, контролирующим поток информации через слой; используется в некоторых архитектурах трансформеров…
wikiorder sensitivity
# order sensitivity ## Определение Свойство модели трансформера с RoPE различать порядок токенов благодаря позиционным эмбеддингам, но не абсолютно. ## Где встречается - [[668…
wikiIdentity mapping
…Что такое vanishing exploding gradients в трансформерах и как их предотвратить|664. Что такое vanishing exploding gradients в трансформерах и…
wikiединый трансформер
# единый трансформер ## Определение Один decoder-only transformer, обрабатывающий последовательность текстовых и визуальных токенов без раздельных энкодеров, как в мультимодальных моделях…
wikipositional invariance
…Является одним из индуктивных biases трансформеров. ## Где встречается - [[668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)|668. Что…
wikivanishing gradients
…Что такое vanishing exploding gradients в трансформерах и как их предотвратить|664. Что такое vanishing exploding gradients в трансформерах и…
wikitransformer block
# transformer block ## Определение Базовый строительный блок трансформера, включающий multi-head self-attention, feed-forward сеть и residual connection с нормализацией…
answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
…Почему трансформеры до сих пор побеждают SSM на большинстве задач (2026)? ## Краткий тезис [[Вики/transformers\|Трансформеры]] сохраняют [[Вики/leader election…
answerКогда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?
…SSM (Mamba) vs Трансформер | Характеристика | SSM (Mamba) | Трансформер | |----------------|-------------|-------------| | Сложность | O(n) | O(n²) | | Память (GPU) | O(n) (или O(1…
wikiexploding gradients
…Что такое vanishing exploding gradients в трансформерах и как их предотвратить|664. Что такое vanishing exploding gradients в трансформерах и…
wikiLayerNorm
# LayerNorm ## Определение Операция нормализации, которая центрирует и масштабирует активации слоя; используется в трансформерах для стабилизации обучения, но требует больше вычислений…
wikiO(n²) complexity
# O(n²) complexity ## Определение Квадратичная вычислительная сложность стандартного attention, ограничивающая длину контекста трансформера. ## Где встречается - [[646. Как работает attention с…
wikiDecoder
# Decoder ## Определение Часть архитектуры трансформера, генерирующая выходную последовательность через masked self-attention и cross-attention. ## Где встречается - [[540. Как работает…
wikiHidden state
# Hidden state ## Определение Внутренний вектор состояния модели (например, в SSM или трансформере), несущий сжатое представление контекста; используется в speculative decoding…
wikisingle-stage autoregressive transformer
# single-stage autoregressive transformer ## Определение Архитектура генерации аудио, использующая одностадийный авторегрессионный трансформер без разделения на этапы. ## Где встречается - [[800+ вопросов…
wikiresidual stream
# residual stream ## Определение Непрерывный вектор, проходящий через все слои трансформера, к которому каждый слой добавляет свой выход через skip connection…
wikid_model
# d_model ## Определение Скрытая размерность представлений в трансформере (например, 4096 для LLaMA-7B), фиксированная в residual stream. ## Где встречается - [[456…
wikimamba-ssm
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
wikiS5
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
answerЧто такое residual stream и как он связан с информационным потоком в трансформере?
…В трансформерах концепция аналогична, но есть нюансы: - В ResNet skip connection может быть проекцией (если размерность меняется), в трансформерах размерность…
wikiZamba
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
wikiAbsolute Positional Encoding
# Absolute Positional Encoding ## Определение Традиционный способ добавления информации о позиции токена в трансформерах, хуже обобщается на длинные последовательности по сравнению…
wikiStripedHyena
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
wikiдискретизация
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
wikiматрица проекции B
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
wikiматрица проекции C
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
wikiрекуррентное обновление
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
wikihighway networks
…Что такое residual connections и зачем они нужны в трансформере|672. Что такое residual connections и зачем они нужны в…
wikiматрица перехода A
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
wikiExponential moving averages
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
wikiконстантная память
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
wikinon-autoregressive transformer
# non-autoregressive transformer ## Определение Архитектура трансформера, предсказывающая все токены последовательности параллельно без зависимости от предыдущих. Применяется в задачах, где допустим…
wikiассоциативный сканер
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
wikiбутылочное горлышко
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
answerКак работает Mamba (State Space Model) и чем она лучше трансформера?
…Меньше экосистемы — меньше предобученных моделей, инструментов, оптимизаций, чем у трансформеров. --- ## 7. Когда выбирать Mamba, а когда трансформер | Сценарий | Рекомендация | |----------|--------------| | Длинный…
wikiState Space Model
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
wikigradient monitoring
…Что такое vanishing exploding gradients в трансформерах и как их предотвратить|664. Что такое vanishing exploding gradients в трансформерах и…
wikiParallel scan
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
wikiresidual connection
…Что такое residual connections и зачем они нужны в трансформере|672. Что такое residual connections и зачем они нужны в…
wikicausal-conv1d
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
wikiMulti-Head Attention
# Multi-Head Attention ## Определение Ключевой компонент трансформера, выполняющий операцию внимания параллельно в нескольких головах с разными проекциями; каждая голова учится…
wikiEdge computing
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
wikiRecall@5
…Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)|668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)]] ## Навигация…