Поиск

wikicross-layer attention
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiREALM
# REALM ## Определение Архитектура, интегрирующая retrieval и генерацию с помощью cross-attention между скрытыми состояниями энкодера и декодера. ## Где встречается - [[299…
wikiALBERT
# ALBERT ## Определение Архитектура трансформера с разделением параметров между слоями для уменьшения числа параметров, но без cross-layer attention. ## Где встречается…
wikiReformer
# Reformer ## Определение Эффективная архитектура Transformer, использующая LSH attention (Locality-Sensitive Hashing) для аппроксимации внимания, что позволяет работать с длинными контекстами…
wikiLSH attention
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiMamba
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiUniversal Transformer
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiRWKV
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiFiD
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiH3
# H3 ## Определение Гибридная архитектура, комбинирующая state-space модели с механизмом внимания и межслойными связями. ## Где встречается - [[299. Как работает attention…
wikiTree attention mask
…attention mask для параллельной верификации деревьев кандидатов в speculative decoding. ## Где встречается - [[164. Какие trade-offs между разными архитектурами speculative…
wikiAdaptive computation time
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiState Space Model
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiSelective state space
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiDense connections
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikihybrid model
# hybrid model ## Определение Модель, объединяющая различные архитектурные подходы, например, Mamba (SSM) и Attention, или каскад из быстрой малой модели и…
wikiTree Attention
# Tree Attention ## Определение Механизм в speculative decoding, позволяющий target-модели параллельно обрабатывать несколько ветвей кандидатных последовательностей с модифицированной маскировкой для…
wikiresidual connections
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiMambaFormer
# MambaFormer ## Определение Гибридная архитектура, объединяющая Mamba (SSM) и Transformer (attention) компоненты. ## Где встречается - [[60. Настроить гибрид (Mamba + Attention)|60. Настроить…
wikiLongNet
# LongNet ## Определение Архитектура с разреженным вниманием (sparse attention), предлагаемая как альтернатива grouped-query attention (GQA) для работы с длинными контекстами…
wikiLinear attention
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikidilated sliding window
…архитектурах. ## Где встречается - [[281. Что такое sliding window attention и зачем он в Mistral|281. Что такое sliding window attention…
answerКак работает attention между слоями (cross-layer attention) в современных архитектурах?
…Как работает attention между слоями (cross-layer attention) в современных архитектурах? ## Краткий тезис attention|Cross-layer attention — это механизм, при…
wikivanishing gradients
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiJamba
# Jamba ## Определение Гибридная архитектура от AI21 Labs, чередующая Mamba-слои (State Space Models), attention-слои и MoE (Mixture of Experts…
wikiFeature-Aware Speculative Decoding
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
wikiParallel prefix sum
…архитектурах вроде Mamba для эффективных рекуррентных вычислений. ## Где встречается - [[60. Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация…
wikislot memory
…Используется в архитектурах с бесконечным контекстом (например, Infini-attention) и в Redis для распределения данных по шардам. ## Где встречается - [[632…
wikiLSTM
…RWKV (RNN with Transformer attention) как комбинирует RNN и attention|714. RWKV (RNN with Transformer attention) как комбинирует RNN и…
wikiTransformer
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiFlashAttention
…Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма|202. Как работает paged attention в vLLM…
wikiTransformer-XL
# Transformer-XL ## Определение Архитектура трансформера с рекуррентностью и кэшем предыдущих сегментов, позволяющая обрабатывать длинные контексты без сжатия. ## Где встречается - [[632…
wikiLinformer
# Linformer ## Определение Архитектура трансформера, проецирующая ключи и значения на низкоранговое пространство для снижения сложности attention. ## Где встречается - [[800+ вопросов|800…
wikiHyena
# Hyena ## Определение Архитектура, заменяющая механизм внимания сверточными операциями. Достигает сложности O(n log n) и сохраняет качество на длинных контекстах…
wikiPaged Attention
# Paged Attention ## Определение Алгоритм управления KV-кэшем в LLM-серверах (vLLM), разбивающий внимание на блоки (страницы) и использующий таблицу страниц…
wikiSIMD
# SIMD ## Определение SIMD (Single Instruction Multiple Data) — архитектура параллельных вычислений, выполняющая одну инструкцию над множеством данных; используется для векторизации и…
wikiHybrid architecture
# Hybrid architecture ## Определение Архитектура, объединяющая слои Transformer и State Space Model (SSM) для достижения баланса между вычислительной эффективностью и точностью…
wikiVLLM
…Какие trade-offs между разными архитектурами speculative decoding]] - [[202. Как работает paged attention в vLLM Чем это отличается от стандартного…
wikiZamba
# Zamba ## Определение Гибридная архитектура нейросети, объединяющая State Space Model (Mamba) и механизм внимания (attention). Направлена на улучшение эффективности обработки длинных…
wikiавторегрессивное декодирование
…Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они|277. Что такое multi-query attention…
wikiDecoder-only architecture
# Decoder-only architecture ## Определение Архитектура трансформера, использующая только декодер с маскированным attention, применяемая в большинстве современных LLM (например, GPT). ## Где…
wikiAttention
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikipost-norm
…Как вы детектируете и фиксите attention sinks в длинных контекстах|286. Как вы детектируете и фиксите attention sinks в длинных…
wikipre-normalization
# pre-normalization ## Определение Pre-normalization (pre-norm) — размещение Layer Normalisation перед подуровнями (attention/FFN) в трансформере, а не после. Это…
answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
…Как работает attention между слоями (cross-layer attention) в современных архитектурах\|299]] | Как вы выбираете hardware для инференса LLM? | | [[301…
answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Вторая ([[Вики/Flash Attention 2\|FA2]], 2023) улучшила [[Вики/parallelism\|параллелизм]] и поддержку разных типов [[Вики/Attention\|attention]] (causal, masked…
wikibatch size
…Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они|277. Что такое multi-query attention…
wikiBi-encoder
# Bi-encoder ## Определение Архитектура с двумя независимыми кодировщиками (для запроса и документа), сворачивающими вход в один вектор, что обеспечивает быстрый…
wikiTimeSformer
# TimeSformer ## Определение Архитектура vision transformer для видео, разделяющая attention на пространственный (внутри кадра) и временной (между кадрами). ## Где встречается - [[549…
answerЧто такое Q-Former в BLIP-2 и зачем он нужен?
…Он использует небольшое количество обучаемых [[Вики/Query Tokens\|query tokens]], которые через [[Вики/Cross-attention\|cross-attention]] извлекают из визуальных…