Поиск
- wikicross-layer attention
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiREALM
# REALM ## Определение Архитектура, интегрирующая retrieval и генерацию с помощью cross-attention между скрытыми состояниями энкодера и декодера. ## Где встречается - [[299…
- wikiALBERT
# ALBERT ## Определение Архитектура трансформера с разделением параметров между слоями для уменьшения числа параметров, но без cross-layer attention. ## Где встречается…
- wikiReformer
# Reformer ## Определение Эффективная архитектура Transformer, использующая LSH attention (Locality-Sensitive Hashing) для аппроксимации внимания, что позволяет работать с длинными контекстами…
- wikiLSH attention
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiMamba
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiUniversal Transformer
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiRWKV
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiFiD
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiH3
# H3 ## Определение Гибридная архитектура, комбинирующая state-space модели с механизмом внимания и межслойными связями. ## Где встречается - [[299. Как работает attention…
- wikiTree attention mask
…attention mask для параллельной верификации деревьев кандидатов в speculative decoding. ## Где встречается - [[164. Какие trade-offs между разными архитектурами speculative…
- wikiAdaptive computation time
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiState Space Model
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiSelective state space
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiDense connections
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikihybrid model
# hybrid model ## Определение Модель, объединяющая различные архитектурные подходы, например, Mamba (SSM) и Attention, или каскад из быстрой малой модели и…
- wikiTree Attention
# Tree Attention ## Определение Механизм в speculative decoding, позволяющий target-модели параллельно обрабатывать несколько ветвей кандидатных последовательностей с модифицированной маскировкой для…
- wikiresidual connections
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiMambaFormer
# MambaFormer ## Определение Гибридная архитектура, объединяющая Mamba (SSM) и Transformer (attention) компоненты. ## Где встречается - [[60. Настроить гибрид (Mamba + Attention)|60. Настроить…
- wikiLongNet
# LongNet ## Определение Архитектура с разреженным вниманием (sparse attention), предлагаемая как альтернатива grouped-query attention (GQA) для работы с длинными контекстами…
- wikiLinear attention
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikidilated sliding window
…архитектурах. ## Где встречается - [[281. Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention…
- answerКак работает attention между слоями (cross-layer attention) в современных архитектурах?
…Как работает attention между слоями (cross-layer attention) в современных архитектурах? ## Краткий тезис attention|Cross-layer attention — это механизм, при…
- wikivanishing gradients
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiJamba
# Jamba ## Определение Гибридная архитектура от AI21 Labs, чередующая Mamba-слои (State Space Models), attention-слои и MoE (Mixture of Experts…
- wikiFeature-Aware Speculative Decoding
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikiParallel prefix sum
…архитектурах вроде Mamba для эффективных рекуррентных вычислений. ## Где встречается - [[60. Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация…
- wikislot memory
…Используется в архитектурах с бесконечным контекстом (например, Infini-attention) и в Redis для распределения данных по шардам. ## Где встречается - [[632…
- wikiLSTM
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
- wikiTransformer
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiFlashAttention
…Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…
- wikiTransformer-XL
# Transformer-XL ## Определение Архитектура трансформера с рекуррентностью и кэшем предыдущих сегментов, позволяющая обрабатывать длинные контексты без сжатия. ## Где встречается - [[632…
- wikiLinformer
# Linformer ## Определение Архитектура трансформера, проецирующая ключи и значения на низкоранговое пространство для снижения сложности attention. ## Где встречается - [[800+ вопросов|800…
- wikiHyena
# Hyena ## Определение Архитектура, заменяющая механизм внимания сверточными операциями. Достигает сложности O(n log n) и сохраняет качество на длинных контекстах…
- wikiPaged Attention
# Paged Attention ## Определение Алгоритм управления KV-кэшем в LLM-серверах (vLLM), разбивающий внимание на блоки (страницы) и использующий таблицу страниц…
- wikiSIMD
# SIMD ## Определение SIMD (Single Instruction Multiple Data) — архитектура параллельных вычислений, выполняющая одну инструкцию над множеством данных; используется для векторизации и…
- wikiHybrid architecture
# Hybrid architecture ## Определение Архитектура, объединяющая слои Transformer и State Space Model (SSM) для достижения баланса между вычислительной эффективностью и точностью…
- wikiVLLM
…Какие trade-offs между разными архитектурами speculative decoding]] - [[202. Как работает paged attention в vLLM Чем это отличается от стандартного…
- wikiZamba
# Zamba ## Определение Гибридная архитектура нейросети, объединяющая State Space Model (Mamba) и механизм внимания (attention). Направлена на улучшение эффективности обработки длинных…
- wikiавторегрессивное декодирование
…Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они|277. Что такое multi-query attention…
- wikiDecoder-only architecture
# Decoder-only architecture ## Определение Архитектура трансформера, использующая только декодер с маскированным attention, применяемая в большинстве современных LLM (например, GPT). ## Где…
- wikiAttention
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikipost-norm
…Как вы детектируете и фиксите attention sinks в длинных контекстах|286. Как вы детектируете и фиксите attention sinks в длинных…
- wikipre-normalization
# pre-normalization ## Определение Pre-normalization (pre-norm) — размещение Layer Normalisation перед подуровнями (attention/FFN) в трансформере, а не после. Это…
- answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
…Как работает attention между слоями (cross-layer attention) в современных архитектурах\|299]] | Как вы выбираете hardware для инференса LLM? | | [[301…
- answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Вторая ([[Вики/Flash Attention 2\|FA2]], 2023) улучшила [[Вики/parallelism\|параллелизм]] и поддержку разных типов [[Вики/Attention\|attention]] (causal, masked…
- wikibatch size
…Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они|277. Что такое multi-query attention…
- wikiBi-encoder
# Bi-encoder ## Определение Архитектура с двумя независимыми кодировщиками (для запроса и документа), сворачивающими вход в один вектор, что обеспечивает быстрый…
- wikiTimeSformer
# TimeSformer ## Определение Архитектура vision transformer для видео, разделяющая attention на пространственный (внутри кадра) и временной (между кадрами). ## Где встречается - [[549…
- answerЧто такое Q-Former в BLIP-2 и зачем он нужен?
…Он использует небольшое количество обучаемых [[Вики/Query Tokens\|query tokens]], которые через [[Вики/Cross-attention\|cross-attention]] извлекают из визуальных…