Поиск
- wikiтрансформер-декодер
# трансформер-декодер ## Определение Архитектура нейросети с каузальным вниманием, генерирующая токены последовательно; лежит в основе авторегрессионных моделей (GPT, Chameleon). ## Где встречается…
- wikipost-norm
# post-norm ## Определение Схема трансформера, в которой LayerNorm применяется после сложения residual (output = LayerNorm(x + F(x))). Оригинальный вариант, склонный…
- wikiJamba
…Как работает Mamba (State Space Model) и чем она лучше трансформера]] - [[716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для…
- wikiS4
…Как работает Mamba (State Space Model) и чем она лучше трансформера]] - [[716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для…
- wikipre-normalization
# pre-normalization ## Определение Pre-normalization (pre-norm) — размещение Layer Normalisation перед подуровнями (attention/FFN) в трансформере, а не после. Это…
- wikiinductive biases
# inductive biases ## Определение Что такое индуктивные biases трансформеров ## Где встречается - [[668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity…
- wikiPruning heads
# Pruning heads ## Определение Удаление неактивных голов внимания в трансформере для уменьшения избыточности и ускорения инференса. ## Где встречается - [[668. Что такое…
- wikigated residual connections
# gated residual connections ## Определение Вариант residual connections с дополнительным вентилем, контролирующим поток информации через слой; используется в некоторых архитектурах трансформеров…
- wikiorder sensitivity
# order sensitivity ## Определение Свойство модели трансформера с RoPE различать порядок токенов благодаря позиционным эмбеддингам, но не абсолютно. ## Где встречается - [[668…
- wikiIdentity mapping
…Что такое vanishing exploding gradients в трансформерах и как их предотвратить|664. Что такое vanishing exploding gradients в трансформерах и…
- wikiединый трансформер
# единый трансформер ## Определение Один decoder-only transformer, обрабатывающий последовательность текстовых и визуальных токенов без раздельных энкодеров, как в мультимодальных моделях…
- wikipositional invariance
…Является одним из индуктивных biases трансформеров. ## Где встречается - [[668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)|668. Что…
- wikivanishing gradients
…Что такое vanishing exploding gradients в трансформерах и как их предотвратить|664. Что такое vanishing exploding gradients в трансформерах и…
- wikitransformer block
# transformer block ## Определение Базовый строительный блок трансформера, включающий multi-head self-attention, feed-forward сеть и residual connection с нормализацией…
- answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
…Почему трансформеры до сих пор побеждают SSM на большинстве задач (2026)? ## Краткий тезис [[Вики/transformers\|Трансформеры]] сохраняют [[Вики/leader election…
- answerКогда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?
…SSM (Mamba) vs Трансформер | Характеристика | SSM (Mamba) | Трансформер | |----------------|-------------|-------------| | Сложность | O(n) | O(n²) | | Память (GPU) | O(n) (или O(1…
- wikiexploding gradients
…Что такое vanishing exploding gradients в трансформерах и как их предотвратить|664. Что такое vanishing exploding gradients в трансформерах и…
- wikiLayerNorm
# LayerNorm ## Определение Операция нормализации, которая центрирует и масштабирует активации слоя; используется в трансформерах для стабилизации обучения, но требует больше вычислений…
- wikiO(n²) complexity
# O(n²) complexity ## Определение Квадратичная вычислительная сложность стандартного attention, ограничивающая длину контекста трансформера. ## Где встречается - [[646. Как работает attention с…
- wikiDecoder
# Decoder ## Определение Часть архитектуры трансформера, генерирующая выходную последовательность через masked self-attention и cross-attention. ## Где встречается - [[540. Как работает…
- wikiHidden state
# Hidden state ## Определение Внутренний вектор состояния модели (например, в SSM или трансформере), несущий сжатое представление контекста; используется в speculative decoding…
- wikisingle-stage autoregressive transformer
# single-stage autoregressive transformer ## Определение Архитектура генерации аудио, использующая одностадийный авторегрессионный трансформер без разделения на этапы. ## Где встречается - [[800+ вопросов…
- wikiresidual stream
# residual stream ## Определение Непрерывный вектор, проходящий через все слои трансформера, к которому каждый слой добавляет свой выход через skip connection…
- wikid_model
# d_model ## Определение Скрытая размерность представлений в трансформере (например, 4096 для LLaMA-7B), фиксированная в residual stream. ## Где встречается - [[456…
- wikimamba-ssm
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiS5
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- answerЧто такое residual stream и как он связан с информационным потоком в трансформере?
…В трансформерах концепция аналогична, но есть нюансы: - В ResNet skip connection может быть проекцией (если размерность меняется), в трансформерах размерность…
- wikiZamba
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiAbsolute Positional Encoding
# Absolute Positional Encoding ## Определение Традиционный способ добавления информации о позиции токена в трансформерах, хуже обобщается на длинные последовательности по сравнению…
- wikiStripedHyena
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- wikiдискретизация
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiматрица проекции B
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiматрица проекции C
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiрекуррентное обновление
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikihighway networks
…Что такое residual connections и зачем они нужны в трансформере|672. Что такое residual connections и зачем они нужны в…
- wikiматрица перехода A
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiExponential moving averages
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- wikiконстантная память
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikinon-autoregressive transformer
# non-autoregressive transformer ## Определение Архитектура трансформера, предсказывающая все токены последовательности параллельно без зависимости от предыдущих. Применяется в задачах, где допустим…
- wikiассоциативный сканер
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiбутылочное горлышко
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- answerКак работает Mamba (State Space Model) и чем она лучше трансформера?
…Меньше экосистемы — меньше предобученных моделей, инструментов, оптимизаций, чем у трансформеров. --- ## 7. Когда выбирать Mamba, а когда трансформер | Сценарий | Рекомендация | |----------|--------------| | Длинный…
- wikiState Space Model
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- wikigradient monitoring
…Что такое vanishing exploding gradients в трансформерах и как их предотвратить|664. Что такое vanishing exploding gradients в трансформерах и…
- wikiParallel scan
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- wikiresidual connection
…Что такое residual connections и зачем они нужны в трансформере|672. Что такое residual connections и зачем они нужны в…
- wikicausal-conv1d
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiMulti-Head Attention
# Multi-Head Attention ## Определение Ключевой компонент трансформера, выполняющий операцию внимания параллельно в нескольких головах с разными проекциями; каждая голова учится…
- wikiEdge computing
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiRecall@5
…Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)|668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)]] ## Навигация…