Поиск

wikiHybrid architecture
# Hybrid architecture ## Определение Архитектура, объединяющая слои Transformer и State Space Model (SSM) для достижения баланса между вычислительной эффективностью и точностью…
wikiStripedHyena
# StripedHyena ## Определение Гибридная архитектура нейронной сети, чередующая SSM-слои (Hyena) и слои внимания, сохраняющая линейную сложность при обработке длинных контекстов…
wikiExponential moving averages
…в архитектурах SSM (например, StripedHyena) для улучшения долговременной памяти. ## Где встречается - [[716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для…
wikiState Space Model
# State Space Model ## Определение Архитектура нейросети, использующая рекуррентное обновление скрытого состояния на основе модели пространства состояний. SSM-архитектуры эффективнее трансформеров…
wikiJamba
# Jamba ## Определение Гибридная архитектура от AI21 Labs, чередующая Mamba-слои (State Space Models), attention-слои и MoE (Mixture of Experts…
wikiS4
# S4 ## Определение Классическая архитектура State Space Model со статическими матрицами A, B, C, лежащая в основе более современных SSM, таких…
wikiMixture of Experts
# Mixture of Experts ## Определение Архитектура нейросети, где на каждый токен активируется только подмножество экспертов (например, 2 из 8), что обеспечивает…
wikigated residual connections
# gated residual connections ## Определение Вариант residual connections с дополнительным вентилем, контролирующим поток информации через слой; используется в некоторых архитектурах трансформеров…
wikiLinear attention
…Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)|668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)]] - [[714…
wikiTransformer
# Transformer ## Определение Архитектура нейронной сети, основанная на механизме внимания, лежащая в основе большинства современных LLM и моделей последовательностей. ## Где встречается…
answerКогда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context? ## Краткий тезис [[Вики/State Space Model\|SSM-архитектуры]] ([[Вики/S4…
wikiAttention
# Attention ## Определение Механизм трансформеров, вычисляющий Attention(Q,K,V)=softmax(QK^T/√d_k)V. Позволяет модели фокусироваться на релевантных…
answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
…Transformer, SSM, Attention, State **[[Вики/Transformer\|Transformer]]** — архитектура нейросети, основанная на механизме [[Вики/full attention\|self-attention]]. Позволяет модели напрямую…
answerКак LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
…AlphaFold 3, ESM3)? Архитектура и отличия? ## Краткий тезис [[Вики/LLM\|LLM]] и модели на основе трансформеров произвели революцию в предсказании…
wikitransformers
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[213. Что такое…
answerЧто такое индуктивные biases трансформеров? (positional invariance, order sensitivity)?
…Что такое индуктивные biases трансформеров? (positional invariance, order sensitivity)? ## Краткий тезис Индуктивные biases — это априорные предположения, заложенные в архитектуру модели…
answerКак работает обратное распространение (backpropagation) в трансформере?
…Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)\|668]] | Fine-tuning трансформеров | | [[669. Как работает связь между SGD и…
answerЧто такое residual stream и как он связан с информационным потоком в трансформере?
…Это используется в работах по механистической интерпретируемости (mechanistic interpretability) трансформеров. --- ## 10. Практические аспекты: Pre-LN vs Post-LN В оригинальной…
answerHyena: как заменить attention на свертки, сохранив качество?
…как заменить attention на свертки, сохранив качество? ## Краткий тезис Hyena — это архитектура, заменяющая механизм attention в трансформерах на long convolutional…
answerЧто такое logit lens (интерпретация скрытых состояний)?
…Что такое logit lens (интерпретация скрытых состояний)? ## Краткий тезис [[Вики/logit lens\|Logit lens]] — это техника интерпретации внутренних представлений трансформеров…
answerRWKV (RNN with Transformer attention): как комбинирует RNN и attention?
…как комбинирует RNN и attention? ## Краткий тезис [[Вики/RWKV\|RWKV]] ([[Вики/RWKV\|Receptance Weighted Key Value]]) — это архитектура нейронной сети…
answerКак работает LayerNorm и RMSNorm? В чем разница и почему RMSNorm быстрее?
…Основные подходы: - **[[Вики/BatchNorm\|Batch Normalization]]** — [[Вики/normalization\|нормализация]] по батчу (неудобна для RNN/трансформеров из-за зависимости от длины…
answerКак работает FlashAttention математически (tiling, recomputation, не материализуя S)?
…Применение в Agentic RAG и long context В архитектурах [[Вики/Agentic RAG\|Agentic RAG]] [[Вики/AI agents\|агенты]] часто обрабатывают…
answerКак работает Mamba (State Space Model) и чем она лучше трансформера?
…Как работает Mamba (State Space Model) и чем она лучше трансформера? ## Краткий тезис [[Вики/State Space Model\|Mamba]] — это архитектура…
answerЧто такое Test-Time Training (TTT) слои и как они работают?
…почему нужны TTT-слои? Современные архитектуры имеют фундаментальные [[Вики/constraints\|ограничения]]: | Архитектура | Ограничение | |-------------|-------------| | **Transformer** | Квадратичная сложность O(n²) по длине…
answerКак работает инициализация весов в LLM (Xavier, Kaiming, почему важна)?
…последний линейный слой в block — zero init (если используется pre-norm архитектура). Проверка инициализации: - После инициализации прогоните один forward pass…
answerЧто такое «Clone-Structured Causal Graphs» (CSCG) и как они связаны со схемами?
…Как быть, если одно и то же изображение встречается в документах с разными подписями\|120]] | Механистическая интерпретируемость трансформеров | | [[150. Как…
answerКак работает извлечение знаний (knowledge editing) из LLM без переобучения?
…Как работает attention между слоями (cross-layer attention) в современных архитектурах\|299]] | Как knowledge editing сочетается с RAG? | | [[300. Как…
answerЧто такое SwiGLU и почему он лучше ReLU в LLM?
…Введён в (Dauphin et al., 2017) для [[Вики/CNN\|CNN]], позже адаптирован для трансформеров. Формула: `[[Вики/GLU\|GLU]](x) = (W₁x…
answerКак работает attention математически (Q, K, V) и как вычислительная сложность масштабируется?
…В контексте трансформеров это позволяет каждому токену «общаться» с любым другим токеном в последовательности, преодолевая [[Вики/constraints\|ограничения]] рекуррентных сетей…
answerКак работает prompt leakage (кража системного промпта) и как защититься?
…как происходит утечка Атака строится на особенностях архитектуры трансформеров и том факте, что [[Вики/LLM\|LLM]] не видят [[Вики/boundaries…
answerКак работает attention математически? Выведите формулу scaled dot-product attention.
…Это главный [[Вики/Bottleneck\|bottleneck]] трансформеров при работе с длинными контекстами. Умножение на V (размер `n × m` на `m × d…
answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?
…Вики/Lowering\|lowering]]) из высокоуровневого диалекта в низкоуровневый. --- ## 2. Архитектура MLIR: от модели до исполняемого кода Типичный [[Вики/пайплайн автоматического…
indexИндекс разборов
…Какие trade-offs между разными архитектурами speculative decoding\|164. Какие trade-offs между разными архитектурами speculative decoding?]] - [[165. Как тест…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?** > _Ответ:_ AlphaFold 3 (2024) — diffusion-based архитектура: > > - Вход…
indexОглавление
…Какие trade-offs между разными архитектурами speculative decoding\|164. Какие trade-offs между разными архитектурами speculative dec]] - [[Вопросы/Ответы/165…