Поиск

  • wikiHybrid architecture

    # Hybrid architecture ## Определение Архитектура, объединяющая слои Transformer и State Space Model (SSM) для достижения баланса между вычислительной эффективностью и точностью…

  • answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?

    …Когда SSM всё же выигрывают? SSM имеют преимущества в сценариях: - Очень длинные последовательности (>1M токенов) — attention квадратичен, SSM линеен. - Аудио…

  • wikiLinear SSM

    # Linear SSM ## Определение Линейные state space models, в отличие от Mamba, использующей selective scan. ## Где встречается - [[800+ вопросов|800+ вопросов…

  • answerКогда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context? ## Краткий тезис [[Вики/State Space Model\|SSM-архитектуры]] ([[Вики/S4…

  • wikiS4

    # S4 ## Определение Классическая архитектура State Space Model со статическими матрицами A, B, C, лежащая в основе более современных SSM, таких…

  • wikimamba-ssm

    # mamba-ssm ## Определение Официальная библиотека на PyTorch для реализации архитектуры Mamba. ## Где встречается - [[713. Как работает Mamba (State Space Model…

  • wikiStripedHyena

    # StripedHyena ## Определение Гибридная архитектура нейронной сети, чередующая SSM-слои (Hyena) и слои внимания, сохраняющая линейную сложность при обработке длинных контекстов…

  • wikiState Space Model

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • wikiExponential moving averages

    # Exponential moving averages ## Определение Метод сглаживания временных рядов с экспоненциально убывающими весами; применяется в архитектурах SSM (например, StripedHyena) для улучшения…

  • wikiJamba

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • wikiMambaBlock

    # MambaBlock ## Определение Модуль (блок) архитектуры Mamba, реализованный в библиотеке mamba-ssm или написанный вручную. ## Где встречается - [[60. Настроить гибрид (Mamba…

  • wikiParallel scan

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить гибридную архитектуру Mamba + Attention для улучшения качества языковой модели

    …Если [[Вики/mamba-ssm\|mamba-ssm]] не устанавливается (например, из-за [[Вики/CUDA\|CUDA]]): реализуем упрощённый Mamba-блок на чистом…

  • wikiMixture of Experts

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • answerКак работает Mamba (State Space Model) и чем она лучше трансформера?

    …Python, PyTorch, библиотека `[[Вики/mamba-ssm\|mamba-ssm]]` (официальная реализация). **Шаги**: 1. Установить `mamba-ssm` и `causal-conv1d`. 2. Загрузить…

  • wikiMambaFormer

    # MambaFormer ## Определение Гибридная архитектура, объединяющая Mamba (SSM) и Transformer (attention) компоненты. ## Где встречается - [[60. Настроить гибрид (Mamba + Attention)|60. Настроить…

  • wikiReal-time ingestion

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • wikiгибридные архитектуры

    # гибридные архитектуры ## Определение Архитектурный подход, комбинирующий слои attention и state-space models (SSM) для баланса производительности и эффективности. ## Где встречается…

  • wikigating

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • wikiдискретизация

    # дискретизация ## Определение Преобразование непрерывных дифференциальных уравнений State Space Model (SSM) в дискретные шаги для численного решения и применения в рекуррентных…

  • wikiматрица проекции B

    # матрица проекции B ## Определение Матрица проекции входного токена на скрытое состояние в SSM. ## Где встречается - [[713. Как работает Mamba (State…

  • wikiматрица проекции C

    # матрица проекции C ## Определение Матрица проекции скрытого состояния на выходной сигнал в SSM. ## Где встречается - [[713. Как работает Mamba (State…

  • wikiрекуррентное обновление

    # рекуррентное обновление ## Определение Последовательное обновление скрытого состояния на каждом шаге State Space Model (SSM), характерное для архитектуры Mamba. ## Где встречается…

  • answerЧто такое Test-Time Training (TTT) слои и как они работают?

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context\|716]] | В чём отличие Mamba от классических SSM? | | [[717. Почему…

  • wikiматрица перехода A

    # матрица перехода A ## Определение Матрица, определяющая эволюцию скрытого состояния в State Space Model (SSM). ## Где встречается - [[713. Как работает Mamba…

  • wikiMamba

    # Mamba ## Определение Архитектура нейронной сети на основе State Space Models (SSM) с линейной вычислительной сложностью O(n), альтернатива трансформерам для…

  • wikiбутылочное горлышко

    # бутылочное горлышко ## Определение Ограничение State Space Model (SSM), при котором вся история сжимается в одно фиксированное состояние, что может приводить…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть Mamba-2 локально и сравнить perplexity с Llama-3-8B на длинном контексте

    …Цель задачи Практическое знакомство с архитектурой [[Вики/S4\|State Space Models]] ([[Вики/S4\|SSM]]) на примере [[Вики/State Space Model…

  • wikihybrid model

    # hybrid model ## Определение Модель, объединяющая различные архитектурные подходы, например, Mamba (SSM) и Attention, или каскад из быстрой малой модели и…

  • wikiSelective state space

    # Selective state space ## Определение Механизм в архитектуре Mamba для выборочного обновления скрытого состояния в зависимости от входных данных, улучшающий эффективность…

  • wikiHidden state

    # Hidden state ## Определение Внутренний вектор состояния модели (например, в SSM или трансформере), несущий сжатое представление контекста; используется в speculative decoding…

  • wikiLong Context

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • wikisparse attention

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • answerКак LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?

    …В отличие от AlphaFold, [[Вики/ESM3\|ESM3]] — это **[[Вики/S4\|SSM]] ([[Вики/State Space Model\|State Space Model]])** на базе…

  • answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?

    …Transformer vs State Space Models (Mamba) vs Hybrid | Характеристика | Transformer (decoder) | Mamba (SSM) | Hybrid (Transformer + SSM) | |----------------|-----------------------|-------------|----------------------------| | [[Вики/FLOPs\|FLOPs per…

  • answerКак работает attention между слоями (cross-layer attention) в современных архитектурах?

    …В H3 используется **[[Вики/cross-layer attention\|cross-layer attention]]** между SSM-слоями и attention-слоями. Конкретно: [[Вики/Query\|запросы…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить архитектуры на reasoning задачах (Mamba vs Transformer vs RWKV vs Hyena)

    …Клонировать репозитории и установить зависимости: ```python pip install torch transformers datasets evaluate mamba-ssm rwkv hyena-dna ``` 2. Загрузить четыре…

  • wikiTransformer

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • answerHyena: как заменить attention на свертки, сохранив качество?

    …Связь с другими подходами [[Вики/Hyena\|Hyena]] относится к семейству **[[Вики/S4\|State Space Models]] ([[Вики/S4\|SSM]])**, таких как…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать selective scan (Mamba)

    …Исходные данные | Что нужно | Откуда взять | |-----------|--------------| | Бумага Mamba (SSM) | https://arxiv.org/abs/2312.00752 | | Исходный код Mamba (PyTorch reference…

  • answerRWKV (RNN with Transformer attention): как комбинирует RNN и attention?

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context\|716]] | Линейное внимание (linear attention) | | [[720. Что такое mechanism design…

  • answerКак проектировать аукцион для allocation вычислительных ресурсов между агентами?

    …Почему трансформеры до сих пор побеждают SSM на большинстве задач (2026)\|717]] | Как логировать действия агентов? | | [[711. Как работает speculative…

  • indexИндекс разборов

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context\|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?** > _Ответ:_ SSM лучше для: > > - Very long context (>100k) где O…

  • indexОглавление

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context\|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформе]] - [[Вопросы/Ответы…

  • wikiИндекс терминов

    …Linear Scaling Rule|Linear Scaling Rule]] - [[Вики/Linear SSM|Linear SSM]] - [[Вики/Linear Transformers|Linear Transformers]] - [[Вики/Linear warmup + linear…

  • indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING

    …3|Реализовать selective scan (Mamba)|Написать CUDA kernel для SSM|Понимание, как работает| |4|Сравнить Hyena vs FlashAttention на 128k…