Поиск

  • wikiMambaBlock

    # MambaBlock ## Определение Модуль (блок) архитектуры Mamba, реализованный в библиотеке mamba-ssm или написанный вручную. ## Где встречается - [[60. Настроить гибрид (Mamba

  • wikiMambaFormer

    # MambaFormer ## Определение Гибридная архитектура, объединяющая Mamba (SSM) и Transformer (attention) компоненты. ## Где встречается - [[60. Настроить гибрид (Mamba + Attention)|60. Настроить…

  • wikiState Space Model

    …Развернуть Mamba-2 локально|51. Развернуть Mamba-2 локально]] - [[53. Реализовать selective scan (Mamba)|53. Реализовать selective scan (Mamba)]] - [[59…

  • wikimamba-ssm

    # mamba-ssm ## Определение Официальная библиотека на PyTorch для реализации архитектуры Mamba. ## Где встречается - [[713. Как работает Mamba (State Space Model…

  • wikiJamba

    # Jamba ## Определение Гибридная архитектура от AI21 Labs, чередующая Mamba-слои (State Space Models), attention-слои и MoE (Mixture of Experts…

  • wikiSelective scan

    # Selective scan ## Определение Ключевая операция в State Space Models (Mamba), делающая параметры A, B, C зависимыми от входных данных, что…

  • wikiParallel scan

    # Parallel scan ## Определение Hardware-aware алгоритм параллельных рекуррентных вычислений, применяемый в Mamba для эффективного использования GPU. ## Где встречается - [[716. Когда…

  • wikicausal-conv1d

    # causal-conv1d ## Определение Одномерная каузальная свёртка, используемая в архитектуре Mamba для обработки локального контекста без заглядывания в будущее. ## Где встречается…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть Mamba-2 локально и сравнить perplexity с Llama-3-8B на длинном контексте

    …Клонировать репозиторий [[Вики/Mamba\|Mamba]] для тестовых скриптов (опционально): ```bash git clone https://github.com/state-spaces/mamba ``` 6. Проверить…

  • wikiS4

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить гибридную архитектуру Mamba + Attention для улучшения качества языковой модели

    …Если [[Вики/mamba-ssm\|mamba-ssm]] не устанавливается (например, из-за [[Вики/CUDA\|CUDA]]): реализуем упрощённый Mamba-блок на чистом…

  • wikiMamba

    # Mamba ## Определение Архитектура нейронной сети на основе State Space Models (SSM) с линейной вычислительной сложностью O(n), альтернатива трансформерам для…

  • answerКак работает Mamba (State Space Model) и чем она лучше трансформера?

    …Python, PyTorch, библиотека `[[Вики/mamba-ssm\|mamba-ssm]]` (официальная реализация). **Шаги**: 1. Установить `mamba-ssm` и `causal-conv1d`. 2. Загрузить…

  • wikiexpand

    # expand ## Определение Параметр в MambaBlock, определяющий коэффициент расширения скрытого состояния (d_model=hidden_size, expand=2). ## Где встречается - [[60. Настроить…

  • wikiHybridModel

    # HybridModel ## Определение Гибридная модель, объединяющая Mamba и механизм внимания. Позволяет эффективно обрабатывать длинные последовательности. ## Где встречается - [[60. Настроить гибрид (Mamba

  • wikiGPT2Block

    …Используется в гибридных моделях, сочетающих Mamba и Attention. ## Где встречается - [[60. Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention…

  • wikiParallel prefix sum

    # Parallel prefix sum ## Определение Алгоритм параллельного вычисления префиксных сумм, используемый в архитектурах вроде Mamba для эффективных рекуррентных вычислений. ## Где встречается…

  • wikiZamba

    # Zamba ## Определение Гибридная архитектура нейросети, объединяющая State Space Model (Mamba) и механизм внимания (attention). Направлена на улучшение эффективности обработки длинных…

  • wikiрекуррентное обновление

    # рекуррентное обновление ## Определение Последовательное обновление скрытого состояния на каждом шаге State Space Model (SSM), характерное для архитектуры Mamba. ## Где встречается…

  • wikiконстантная память

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikiассоциативный сканер

    # ассоциативный сканер ## Определение Параллельный алгоритм для эффективного вычисления selective scan в моделях типа Mamba, использующий бинарную ассоциативность операции для вычисления…

  • wikiSelective state space

    # Selective state space ## Определение Механизм в архитектуре Mamba для выборочного обновления скрытого состояния в зависимости от входных данных, улучшающий эффективность…

  • answerКогда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?

    …Инструменты - Библиотеки: `[[Вики/transformers\|transformers]]`, `mamba_ssm` (официальная реализация [[Вики/Mamba\|Mamba]]), `[[Вики/датасеты\|datasets]]`. - [[Вики/dataset\|Датасет]]: `Long [[Вики…

  • wikiBigBird

    …Как работает Mamba (State Space Model) и чем она лучше трансформера]] - [[60. Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba

  • wikigradcheck

    …Реализовать selective scan (Mamba)|53. Реализовать selective scan (Mamba)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiCLUTRR

    …Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiblock_size

    …Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiPG-19 dataset

    …Развернуть Mamba-2 локально|51. Развернуть Mamba-2 локально]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiSuperGLUE

    …Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiWikiText-103

    …Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiGLUE

    …Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiBoolQ

    …Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiRecurrent operation

    …Реализовать selective scan (Mamba)|53. Реализовать selective scan (Mamba)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikicuda-memcheck

    …Реализовать selective scan (Mamba)|53. Реализовать selective scan (Mamba)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiSynthetic batch

    …Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikitorch.autograd.Function

    …Реализовать selective scan (Mamba)|53. Реализовать selective scan (Mamba)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikitorch.utils.cpp_extension

    …Реализовать selective scan (Mamba)|53. Реализовать selective scan (Mamba)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить архитектуры на reasoning задачах (Mamba vs Transformer vs RWKV vs Hyena)

    …Цель задачи Провести практическое сравнение четырёх архитектур нейронных сетей — [[Вики/Transformer\|Transformer]], [[Вики/Mamba\|Mamba]], [[Вики/RWKV\|RWKV]], [[Вики/Hyena…

  • wikiS5

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikitorch.no_grad

    …Развернуть Mamba-2 локально|51. Развернуть Mamba-2 локально]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?

    …Для длинных контекстов (128k+) [[Вики/Transformer\|Transformer]] становится неэффективен, [[Вики/Mamba\|Mamba]] или [[Вики/hybrid approach\|Hybrid]] выигрывают. ### 2.3…

  • wikiinference_mode

    …Развернуть Mamba-2 локально|51. Развернуть Mamba-2 локально]] - [[220. Настроить wave decoding для коротких ответов|220. Настроить wave decoding…

  • wikiStripedHyena

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • wikiдискретизация

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikiматрица проекции B

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikiматрица проекции C

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikiматрица перехода A

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikiExponential moving averages

    …Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…

  • wikiбутылочное горлышко

    …Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…

  • wikinvcc

    …Реализовать selective scan (Mamba)|53. Реализовать selective scan (Mamba)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…