Поиск
- wikiHybrid architecture
# Hybrid architecture ## Определение Архитектура, объединяющая слои Transformer и State Space Model (SSM) для достижения баланса между вычислительной эффективностью и точностью…
- answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
…Когда SSM всё же выигрывают? SSM имеют преимущества в сценариях: - Очень длинные последовательности (>1M токенов) — attention квадратичен, SSM линеен. - Аудио…
- wikiLinear SSM
# Linear SSM ## Определение Линейные state space models, в отличие от Mamba, использующей selective scan. ## Где встречается - [[800+ вопросов|800+ вопросов…
- answerКогда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context? ## Краткий тезис [[Вики/State Space Model\|SSM-архитектуры]] ([[Вики/S4…
- wikiS4
# S4 ## Определение Классическая архитектура State Space Model со статическими матрицами A, B, C, лежащая в основе более современных SSM, таких…
- wikimamba-ssm
# mamba-ssm ## Определение Официальная библиотека на PyTorch для реализации архитектуры Mamba. ## Где встречается - [[713. Как работает Mamba (State Space Model…
- wikiStripedHyena
# StripedHyena ## Определение Гибридная архитектура нейронной сети, чередующая SSM-слои (Hyena) и слои внимания, сохраняющая линейную сложность при обработке длинных контекстов…
- wikiState Space Model
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- wikiExponential moving averages
# Exponential moving averages ## Определение Метод сглаживания временных рядов с экспоненциально убывающими весами; применяется в архитектурах SSM (например, StripedHyena) для улучшения…
- wikiJamba
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- wikiMambaBlock
# MambaBlock ## Определение Модуль (блок) архитектуры Mamba, реализованный в библиотеке mamba-ssm или написанный вручную. ## Где встречается - [[60. Настроить гибрид (Mamba…
- wikiParallel scan
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить гибридную архитектуру Mamba + Attention для улучшения качества языковой модели
…Если [[Вики/mamba-ssm\|mamba-ssm]] не устанавливается (например, из-за [[Вики/CUDA\|CUDA]]): реализуем упрощённый Mamba-блок на чистом…
- wikiMixture of Experts
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- answerКак работает Mamba (State Space Model) и чем она лучше трансформера?
…Python, PyTorch, библиотека `[[Вики/mamba-ssm\|mamba-ssm]]` (официальная реализация). **Шаги**: 1. Установить `mamba-ssm` и `causal-conv1d`. 2. Загрузить…
- wikiMambaFormer
# MambaFormer ## Определение Гибридная архитектура, объединяющая Mamba (SSM) и Transformer (attention) компоненты. ## Где встречается - [[60. Настроить гибрид (Mamba + Attention)|60. Настроить…
- wikiReal-time ingestion
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- wikiгибридные архитектуры
# гибридные архитектуры ## Определение Архитектурный подход, комбинирующий слои attention и state-space models (SSM) для баланса производительности и эффективности. ## Где встречается…
- wikigating
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- wikiдискретизация
# дискретизация ## Определение Преобразование непрерывных дифференциальных уравнений State Space Model (SSM) в дискретные шаги для численного решения и применения в рекуррентных…
- wikiматрица проекции B
# матрица проекции B ## Определение Матрица проекции входного токена на скрытое состояние в SSM. ## Где встречается - [[713. Как работает Mamba (State…
- wikiматрица проекции C
# матрица проекции C ## Определение Матрица проекции скрытого состояния на выходной сигнал в SSM. ## Где встречается - [[713. Как работает Mamba (State…
- wikiрекуррентное обновление
# рекуррентное обновление ## Определение Последовательное обновление скрытого состояния на каждом шаге State Space Model (SSM), характерное для архитектуры Mamba. ## Где встречается…
- answerЧто такое Test-Time Training (TTT) слои и как они работают?
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context\|716]] | В чём отличие Mamba от классических SSM? | | [[717. Почему…
- wikiматрица перехода A
# матрица перехода A ## Определение Матрица, определяющая эволюцию скрытого состояния в State Space Model (SSM). ## Где встречается - [[713. Как работает Mamba…
- wikiMamba
# Mamba ## Определение Архитектура нейронной сети на основе State Space Models (SSM) с линейной вычислительной сложностью O(n), альтернатива трансформерам для…
- wikiбутылочное горлышко
# бутылочное горлышко ## Определение Ограничение State Space Model (SSM), при котором вся история сжимается в одно фиксированное состояние, что может приводить…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть Mamba-2 локально и сравнить perplexity с Llama-3-8B на длинном контексте
…Цель задачи Практическое знакомство с архитектурой [[Вики/S4\|State Space Models]] ([[Вики/S4\|SSM]]) на примере [[Вики/State Space Model…
- wikihybrid model
# hybrid model ## Определение Модель, объединяющая различные архитектурные подходы, например, Mamba (SSM) и Attention, или каскад из быстрой малой модели и…
- wikiSelective state space
# Selective state space ## Определение Механизм в архитектуре Mamba для выборочного обновления скрытого состояния в зависимости от входных данных, улучшающий эффективность…
- wikiHidden state
# Hidden state ## Определение Внутренний вектор состояния модели (например, в SSM или трансформере), несущий сжатое представление контекста; используется в speculative decoding…
- wikiLong Context
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- wikisparse attention
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- answerКак LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
…В отличие от AlphaFold, [[Вики/ESM3\|ESM3]] — это **[[Вики/S4\|SSM]] ([[Вики/State Space Model\|State Space Model]])** на базе…
- answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
…Transformer vs State Space Models (Mamba) vs Hybrid | Характеристика | Transformer (decoder) | Mamba (SSM) | Hybrid (Transformer + SSM) | |----------------|-----------------------|-------------|----------------------------| | [[Вики/FLOPs\|FLOPs per…
- answerКак работает attention между слоями (cross-layer attention) в современных архитектурах?
…В H3 используется **[[Вики/cross-layer attention\|cross-layer attention]]** между SSM-слоями и attention-слоями. Конкретно: [[Вики/Query\|запросы…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить архитектуры на reasoning задачах (Mamba vs Transformer vs RWKV vs Hyena)
…Клонировать репозитории и установить зависимости: ```python pip install torch transformers datasets evaluate mamba-ssm rwkv hyena-dna ``` 2. Загрузить четыре…
- wikiTransformer
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- answerHyena: как заменить attention на свертки, сохранив качество?
…Связь с другими подходами [[Вики/Hyena\|Hyena]] относится к семейству **[[Вики/S4\|State Space Models]] ([[Вики/S4\|SSM]])**, таких как…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать selective scan (Mamba)
…Исходные данные | Что нужно | Откуда взять | |-----------|--------------| | Бумага Mamba (SSM) | https://arxiv.org/abs/2312.00752 | | Исходный код Mamba (PyTorch reference…
- answerRWKV (RNN with Transformer attention): как комбинирует RNN и attention?
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context\|716]] | Линейное внимание (linear attention) | | [[720. Что такое mechanism design…
- answerКак проектировать аукцион для allocation вычислительных ресурсов между агентами?
…Почему трансформеры до сих пор побеждают SSM на большинстве задач (2026)\|717]] | Как логировать действия агентов? | | [[711. Как работает speculative…
- indexИндекс разборов
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context\|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?** > _Ответ:_ SSM лучше для: > > - Very long context (>100k) где O…
- indexОглавление
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context\|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформе]] - [[Вопросы/Ответы…
- wikiИндекс терминов
…Linear Scaling Rule|Linear Scaling Rule]] - [[Вики/Linear SSM|Linear SSM]] - [[Вики/Linear Transformers|Linear Transformers]] - [[Вики/Linear warmup + linear…
- indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…3|Реализовать selective scan (Mamba)|Написать CUDA kernel для SSM|Понимание, как работает| |4|Сравнить Hyena vs FlashAttention на 128k…