Поиск

  • wikicross-layer attention

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikiREALM

    # REALM ## Определение Архитектура, интегрирующая retrieval и генерацию с помощью cross-attention между скрытыми состояниями энкодера и декодера. ## Где встречается - [[299…

  • wikiALBERT

    # ALBERT ## Определение Архитектура трансформера с разделением параметров между слоями для уменьшения числа параметров, но без cross-layer attention. ## Где встречается…

  • wikiReformer

    # Reformer ## Определение Эффективная архитектура Transformer, использующая LSH attention (Locality-Sensitive Hashing) для аппроксимации внимания, что позволяет работать с длинными контекстами…

  • wikiLSH attention

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikiMamba

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikiUniversal Transformer

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikiRWKV

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikiFiD

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikiH3

    # H3 ## Определение Гибридная архитектура, комбинирующая state-space модели с механизмом внимания и межслойными связями. ## Где встречается - [[299. Как работает attention

  • wikiTree attention mask

    attention mask для параллельной верификации деревьев кандидатов в speculative decoding. ## Где встречается - [[164. Какие trade-offs между разными архитектурами speculative…

  • wikiAdaptive computation time

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikiState Space Model

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikiSelective state space

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikiDense connections

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikihybrid model

    # hybrid model ## Определение Модель, объединяющая различные архитектурные подходы, например, Mamba (SSM) и Attention, или каскад из быстрой малой модели и…

  • wikiTree Attention

    # Tree Attention ## Определение Механизм в speculative decoding, позволяющий target-модели параллельно обрабатывать несколько ветвей кандидатных последовательностей с модифицированной маскировкой для…

  • wikiresidual connections

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikiMambaFormer

    # MambaFormer ## Определение Гибридная архитектура, объединяющая Mamba (SSM) и Transformer (attention) компоненты. ## Где встречается - [[60. Настроить гибрид (Mamba + Attention)|60. Настроить…

  • wikiLongNet

    # LongNet ## Определение Архитектура с разреженным вниманием (sparse attention), предлагаемая как альтернатива grouped-query attention (GQA) для работы с длинными контекстами…

  • wikiLinear attention

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikidilated sliding window

    архитектурах. ## Где встречается - [[281. Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention

  • answerКак работает attention между слоями (cross-layer attention) в современных архитектурах?

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах? ## Краткий тезис attention|Cross-layer attention — это механизм, при…

  • wikivanishing gradients

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikiJamba

    # Jamba ## Определение Гибридная архитектура от AI21 Labs, чередующая Mamba-слои (State Space Models), attention-слои и MoE (Mixture of Experts…

  • wikiFeature-Aware Speculative Decoding

    …RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…

  • wikiParallel prefix sum

    архитектурах вроде Mamba для эффективных рекуррентных вычислений. ## Где встречается - [[60. Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация…

  • wikislot memory

    …Используется в архитектурах с бесконечным контекстом (например, Infini-attention) и в Redis для распределения данных по шардам. ## Где встречается - [[632…

  • wikiLSTM

    …RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…

  • wikiTransformer

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikiFlashAttention

    …Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…

  • wikiTransformer-XL

    # Transformer-XL ## Определение Архитектура трансформера с рекуррентностью и кэшем предыдущих сегментов, позволяющая обрабатывать длинные контексты без сжатия. ## Где встречается - [[632…

  • wikiLinformer

    # Linformer ## Определение Архитектура трансформера, проецирующая ключи и значения на низкоранговое пространство для снижения сложности attention. ## Где встречается - [[800+ вопросов|800…

  • wikiHyena

    # Hyena ## Определение Архитектура, заменяющая механизм внимания сверточными операциями. Достигает сложности O(n log n) и сохраняет качество на длинных контекстах…

  • wikiPaged Attention

    # Paged Attention ## Определение Алгоритм управления KV-кэшем в LLM-серверах (vLLM), разбивающий внимание на блоки (страницы) и использующий таблицу страниц…

  • wikiSIMD

    # SIMD ## Определение SIMD (Single Instruction Multiple Data) — архитектура параллельных вычислений, выполняющая одну инструкцию над множеством данных; используется для векторизации и…

  • wikiHybrid architecture

    # Hybrid architecture ## Определение Архитектура, объединяющая слои Transformer и State Space Model (SSM) для достижения баланса между вычислительной эффективностью и точностью…

  • wikiVLLM

    …Какие trade-offs между разными архитектурами speculative decoding]] - [[202. Как работает paged attention в vLLM Чем это отличается от стандартного…

  • wikiZamba

    # Zamba ## Определение Гибридная архитектура нейросети, объединяющая State Space Model (Mamba) и механизм внимания (attention). Направлена на улучшение эффективности обработки длинных…

  • wikiавторегрессивное декодирование

    …Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они|277. Что такое multi-query attention

  • wikiDecoder-only architecture

    # Decoder-only architecture ## Определение Архитектура трансформера, использующая только декодер с маскированным attention, применяемая в большинстве современных LLM (например, GPT). ## Где…

  • wikiAttention

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention

  • wikipost-norm

    …Как вы детектируете и фиксите attention sinks в длинных контекстах|286. Как вы детектируете и фиксите attention sinks в длинных…

  • wikipre-normalization

    # pre-normalization ## Определение Pre-normalization (pre-norm) — размещение Layer Normalisation перед подуровнями (attention/FFN) в трансформере, а не после. Это…

  • answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах\|299]] | Как вы выбираете hardware для инференса LLM? | | [[301…

  • answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?

    …Вторая ([[Вики/Flash Attention 2\|FA2]], 2023) улучшила [[Вики/parallelism\|параллелизм]] и поддержку разных типов [[Вики/Attention\|attention]] (causal, masked…

  • wikibatch size

    …Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они|277. Что такое multi-query attention

  • wikiBi-encoder

    # Bi-encoder ## Определение Архитектура с двумя независимыми кодировщиками (для запроса и документа), сворачивающими вход в один вектор, что обеспечивает быстрый…

  • wikiTimeSformer

    # TimeSformer ## Определение Архитектура vision transformer для видео, разделяющая attention на пространственный (внутри кадра) и временной (между кадрами). ## Где встречается - [[549…

  • answerЧто такое Q-Former в BLIP-2 и зачем он нужен?

    …Он использует небольшое количество обучаемых [[Вики/Query Tokens\|query tokens]], которые через [[Вики/Cross-attention\|cross-attention]] извлекают из визуальных…