Поиск

  • wikiтрансформер-декодер

    # трансформер-декодер ## Определение Архитектура нейросети с каузальным вниманием, генерирующая токены последовательно; лежит в основе авторегрессионных моделей (GPT, Chameleon). ## Где встречается…

  • wikipost-norm

    # post-norm ## Определение Схема трансформера, в которой LayerNorm применяется после сложения residual (output = LayerNorm(x + F(x))). Оригинальный вариант, склонный…

  • wikiJamba

    …Как работает Mamba (State Space Model) и чем она лучше трансформера]] - [[716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для…

  • wikiS4

    …Как работает Mamba (State Space Model) и чем она лучше трансформера]] - [[716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для…

  • wikipre-normalization

    # pre-normalization ## Определение Pre-normalization (pre-norm) — размещение Layer Normalisation перед подуровнями (attention/FFN) в трансформере, а не после. Это…

  • wikiinductive biases

    # inductive biases ## Определение Что такое индуктивные biases трансформеров ## Где встречается - [[668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity…

  • wikiPruning heads

    # Pruning heads ## Определение Удаление неактивных голов внимания в трансформере для уменьшения избыточности и ускорения инференса. ## Где встречается - [[668. Что такое…

  • wikigated residual connections

    # gated residual connections ## Определение Вариант residual connections с дополнительным вентилем, контролирующим поток информации через слой; используется в некоторых архитектурах трансформеров

  • wikiorder sensitivity

    # order sensitivity ## Определение Свойство модели трансформера с RoPE различать порядок токенов благодаря позиционным эмбеддингам, но не абсолютно. ## Где встречается - [[668…

  • wikiIdentity mapping

    …Что такое vanishing exploding gradients в трансформерах и как их предотвратить|664. Что такое vanishing exploding gradients в трансформерах и…

  • wikiединый трансформер

    # единый трансформер ## Определение Один decoder-only transformer, обрабатывающий последовательность текстовых и визуальных токенов без раздельных энкодеров, как в мультимодальных моделях…

  • wikipositional invariance

    …Является одним из индуктивных biases трансформеров. ## Где встречается - [[668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)|668. Что…

  • wikivanishing gradients

    …Что такое vanishing exploding gradients в трансформерах и как их предотвратить|664. Что такое vanishing exploding gradients в трансформерах и…

  • wikitransformer block

    # transformer block ## Определение Базовый строительный блок трансформера, включающий multi-head self-attention, feed-forward сеть и residual connection с нормализацией…

  • answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?

    …Почему трансформеры до сих пор побеждают SSM на большинстве задач (2026)? ## Краткий тезис [[Вики/transformers\|Трансформеры]] сохраняют [[Вики/leader election…

  • answerКогда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?

    …SSM (Mamba) vs Трансформер | Характеристика | SSM (Mamba) | Трансформер | |----------------|-------------|-------------| | Сложность | O(n) | O(n²) | | Память (GPU) | O(n) (или O(1…

  • wikiexploding gradients

    …Что такое vanishing exploding gradients в трансформерах и как их предотвратить|664. Что такое vanishing exploding gradients в трансформерах и…

  • wikiLayerNorm

    # LayerNorm ## Определение Операция нормализации, которая центрирует и масштабирует активации слоя; используется в трансформерах для стабилизации обучения, но требует больше вычислений…

  • wikiO(n²) complexity

    # O(n²) complexity ## Определение Квадратичная вычислительная сложность стандартного attention, ограничивающая длину контекста трансформера. ## Где встречается - [[646. Как работает attention с…

  • wikiDecoder

    # Decoder ## Определение Часть архитектуры трансформера, генерирующая выходную последовательность через masked self-attention и cross-attention. ## Где встречается - [[540. Как работает…

  • wikiHidden state

    # Hidden state ## Определение Внутренний вектор состояния модели (например, в SSM или трансформере), несущий сжатое представление контекста; используется в speculative decoding…

  • wikisingle-stage autoregressive transformer

    # single-stage autoregressive transformer ## Определение Архитектура генерации аудио, использующая одностадийный авторегрессионный трансформер без разделения на этапы. ## Где встречается - [[800+ вопросов…

  • wikiresidual stream

    # residual stream ## Определение Непрерывный вектор, проходящий через все слои трансформера, к которому каждый слой добавляет свой выход через skip connection…

  • wikid_model

    # d_model ## Определение Скрытая размерность представлений в трансформере (например, 4096 для LLaMA-7B), фиксированная в residual stream. ## Где встречается - [[456…

  • wikimamba-ssm

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikiS5

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • answerЧто такое residual stream и как он связан с информационным потоком в трансформере?

    …В трансформерах концепция аналогична, но есть нюансы: - В ResNet skip connection может быть проекцией (если размерность меняется), в трансформерах размерность…

  • wikiZamba

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikiAbsolute Positional Encoding

    # Absolute Positional Encoding ## Определение Традиционный способ добавления информации о позиции токена в трансформерах, хуже обобщается на длинные последовательности по сравнению…

  • wikiStripedHyena

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • wikiдискретизация

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikiматрица проекции B

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikiматрица проекции C

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikiрекуррентное обновление

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikihighway networks

    …Что такое residual connections и зачем они нужны в трансформере|672. Что такое residual connections и зачем они нужны в…

  • wikiматрица перехода A

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikiExponential moving averages

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • wikiконстантная память

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikinon-autoregressive transformer

    # non-autoregressive transformer ## Определение Архитектура трансформера, предсказывающая все токены последовательности параллельно без зависимости от предыдущих. Применяется в задачах, где допустим…

  • wikiассоциативный сканер

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikiбутылочное горлышко

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • answerКак работает Mamba (State Space Model) и чем она лучше трансформера?

    …Меньше экосистемы — меньше предобученных моделей, инструментов, оптимизаций, чем у трансформеров. --- ## 7. Когда выбирать Mamba, а когда трансформер | Сценарий | Рекомендация | |----------|--------------| | Длинный…

  • wikiState Space Model

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • wikigradient monitoring

    …Что такое vanishing exploding gradients в трансформерах и как их предотвратить|664. Что такое vanishing exploding gradients в трансформерах и…

  • wikiParallel scan

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • wikiresidual connection

    …Что такое residual connections и зачем они нужны в трансформере|672. Что такое residual connections и зачем они нужны в…

  • wikicausal-conv1d

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikiMulti-Head Attention

    # Multi-Head Attention ## Определение Ключевой компонент трансформера, выполняющий операцию внимания параллельно в нескольких головах с разными проекциями; каждая голова учится…

  • wikiEdge computing

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikiRecall@5

    …Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)|668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)]] ## Навигация…