Поиск
- wikiS4
# S4 ## Определение Классическая архитектура State Space Model со статическими матрицами A, B, C, лежащая в основе более современных SSM, таких…
- wikiState Space Model
# State Space Model ## Определение Архитектура нейросети, использующая рекуррентное обновление скрытого состояния на основе модели пространства состояний. SSM-архитектуры эффективнее трансформеров…
- wikiZamba
# Zamba ## Определение Гибридная архитектура нейросети, объединяющая State Space Model (Mamba) и механизм внимания (attention). Направлена на улучшение эффективности обработки длинных…
- wikiдискретизация
# дискретизация ## Определение Преобразование непрерывных дифференциальных уравнений State Space Model (SSM) в дискретные шаги для численного решения и применения в рекуррентных…
- wikiрекуррентное обновление
# рекуррентное обновление ## Определение Последовательное обновление скрытого состояния на каждом шаге State Space Model (SSM), характерное для архитектуры Mamba. ## Где встречается…
- wikiматрица перехода A
# матрица перехода A ## Определение Матрица, определяющая эволюцию скрытого состояния в State Space Model (SSM). ## Где встречается - [[713. Как работает Mamba…
- wikiбутылочное горлышко
# бутылочное горлышко ## Определение Ограничение State Space Model (SSM), при котором вся история сжимается в одно фиксированное состояние, что может приводить…
- wikiJamba
# Jamba ## Определение Гибридная архитектура от AI21 Labs, чередующая Mamba-слои (State Space Models), attention-слои и MoE (Mixture of Experts…
- answerКак работает Mamba (State Space Model) и чем она лучше трансформера?
…Что такое State Space Model (SSM) State Space Model — это математическая модель, описывающая динамическую систему через state|скрытое состояние **h…
- wikimamba-ssm
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiS5
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiSelective scan
# Selective scan ## Определение Ключевая операция в State Space Models (Mamba), делающая параметры A, B, C зависимыми от входных данных, что…
- wikiHidden state
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiматрица проекции B
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiматрица проекции C
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiконстантная память
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiассоциативный сканер
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikicausal-conv1d
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiEdge computing
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiO(n²) complexity
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- answerКогда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?
…Это делает [[Вики/State Space Model\|SSM]] идеальными для длинных контекстов. Проблема классических [[Вики/State Space Model\|SSM]] они стационарны…
- answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
…Позволяет модели напрямую сравнивать все пары токенов во входной последовательности, вычисляя веса важности. **[[Вики/State Space Model\|State Space Model…
- wikilinear complexity
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть Mamba-2 локально и сравнить perplexity с Llama-3-8B на длинном контексте
…Цель задачи Практическое знакомство с архитектурой [[Вики/S4\|State Space Models]] ([[Вики/S4\|SSM]]) на примере [[Вики/State Space Model…
- wikiMath
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiLinear SSM
# Linear SSM ## Определение Линейные state space models, в отличие от Mamba, использующей selective scan. ## Где встречается - [[800+ вопросов|800+ вопросов…
- wikiBigBird
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiгибридные архитектуры
# гибридные архитектуры ## Определение Архитектурный подход, комбинирующий слои attention и state-space models (SSM) для баланса производительности и эффективности. ## Где встречается…
- wikiMamba
# Mamba ## Определение Архитектура нейронной сети на основе State Space Models (SSM) с линейной вычислительной сложностью O(n), альтернатива трансформерам для…
- answerКак LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
…В отличие от AlphaFold, [[Вики/ESM3\|ESM3]] — это **[[Вики/S4\|SSM]] ([[Вики/State Space Model\|State Space Model]])** на базе…
- wikiLSTM
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiLongformer
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiHybrid architecture
# Hybrid architecture ## Определение Архитектура, объединяющая слои Transformer и State Space Model (SSM) для достижения баланса между вычислительной эффективностью и точностью…
- wikiGSM8K
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- answerКак работает attention между слоями (cross-layer attention) в современных архитектурах?
…Как вы тестируете robustness LLM к adversarial input (не только injection)\|298]] | Как работают State Space Models (Mamba)? | | [[300. Как…
- wikiMMLU
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- answerHyena: как заменить attention на свертки, сохранив качество?
…State Space Models | | [[713. Как работает Mamba (State Space Model) и чем она лучше трансформера\|713]] | Mamba: альтернатива attention | | [[714…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать selective scan (Mamba)
…Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 1 | Basic CUDA programming model | | 47 | PyTorch custom CUDA extensions | | 102 | State Space…
- answerКак делать synthetic eval datasets для agentic workflows?
…State Space Exploration (обход пространства состояний) Агентный воркфлоу — это [[Вики/DFA\|конечный автомат]]. **[[Вики/State space exploration\|State space exploration…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить гибридную архитектуру Mamba + Attention для улучшения качества языковой модели
…Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 42 | Архитектура трансформера (Attention, positional encoding) | | 78 | State Space Models: теория (S4, Mamba…
- answerЧто такое Chain-of-Thought без токенов (latent CoT, COCONUT)?
…На каждой итерации [[Вики/state\|состояние]] уточняется, как будто [[Вики/model\|модель]] «обдумывает» ответ. После последней итерации [[Вики/state\|состояние…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить архитектуры на reasoning задачах (Mamba vs Transformer vs RWKV vs Hyena)
…Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 45 | Attention mechanism vs linear attention | | 102 | State Space Models: S4, Mamba | | 203…
- answerЧто такое «test coverage» для агента (покрытие траекторий, а не кода)?
…Как измерять Задать список критических состояний (например, через [[Вики/state space\|state space]] — [[Вики/state space\|пространство состояний]]) и проверять…
- answerЧто такое Test-Time Training (TTT) слои и как они работают?
…Hyena как заменить attention на свертки, сохранив качество\|715]] | Что такое State Space Models (SSM) и как они работают? | | [[716…
- wikibias
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- answerRWKV (RNN with Transformer attention): как комбинирует RNN и attention?
…Как работает Mamba (State Space Model) и чем она лучше трансформера\|713]] | Сравнение архитектур LLM (Transformer, Mamba, RWKV) | | [[715. Hyena…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать active learning loop
…Ключевой результат итоговая [[Вики/model\|модель]], обученная с использованием [[Вики/active learning\|active learning]], должна достигать точности, сопоставимой с моделью…
- answerКак вы проектируете систему для real-time video understanding (поток с камеры)?
…outputs = model(**inputs, output_hidden_states=True) # Берём CLS-токен последнего слоя return outputs.hidden_states[-1][:, 0, :] # shape: (1…
- answerКак работает Multi-query attention (MQA) для long context?
…Вики/State Space Model\|Mamba]] (альтернатива Transformer) | — | — | Не attention, но тоже решает проблему long context через state space models. | **Почему…
- wikiИндекс терминов
…state space|state space]] - [[Вики/State space exploration|State space exploration]] - [[Вики/State Space Model|State Space Model]] - [[Вики/State…