Поиск
- wikiMambaBlock
# MambaBlock ## Определение Модуль (блок) архитектуры Mamba, реализованный в библиотеке mamba-ssm или написанный вручную. ## Где встречается - [[60. Настроить гибрид (Mamba…
- wikiMambaFormer
# MambaFormer ## Определение Гибридная архитектура, объединяющая Mamba (SSM) и Transformer (attention) компоненты. ## Где встречается - [[60. Настроить гибрид (Mamba + Attention)|60. Настроить…
- wikiState Space Model
…Развернуть Mamba-2 локально|51. Развернуть Mamba-2 локально]] - [[53. Реализовать selective scan (Mamba)|53. Реализовать selective scan (Mamba)]] - [[59…
- wikimamba-ssm
# mamba-ssm ## Определение Официальная библиотека на PyTorch для реализации архитектуры Mamba. ## Где встречается - [[713. Как работает Mamba (State Space Model…
- wikiJamba
# Jamba ## Определение Гибридная архитектура от AI21 Labs, чередующая Mamba-слои (State Space Models), attention-слои и MoE (Mixture of Experts…
- wikiSelective scan
# Selective scan ## Определение Ключевая операция в State Space Models (Mamba), делающая параметры A, B, C зависимыми от входных данных, что…
- wikiParallel scan
# Parallel scan ## Определение Hardware-aware алгоритм параллельных рекуррентных вычислений, применяемый в Mamba для эффективного использования GPU. ## Где встречается - [[716. Когда…
- wikicausal-conv1d
# causal-conv1d ## Определение Одномерная каузальная свёртка, используемая в архитектуре Mamba для обработки локального контекста без заглядывания в будущее. ## Где встречается…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть Mamba-2 локально и сравнить perplexity с Llama-3-8B на длинном контексте
…Клонировать репозиторий [[Вики/Mamba\|Mamba]] для тестовых скриптов (опционально): ```bash git clone https://github.com/state-spaces/mamba ``` 6. Проверить…
- wikiS4
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить гибридную архитектуру Mamba + Attention для улучшения качества языковой модели
…Если [[Вики/mamba-ssm\|mamba-ssm]] не устанавливается (например, из-за [[Вики/CUDA\|CUDA]]): реализуем упрощённый Mamba-блок на чистом…
- wikiMamba
# Mamba ## Определение Архитектура нейронной сети на основе State Space Models (SSM) с линейной вычислительной сложностью O(n), альтернатива трансформерам для…
- answerКак работает Mamba (State Space Model) и чем она лучше трансформера?
…Python, PyTorch, библиотека `[[Вики/mamba-ssm\|mamba-ssm]]` (официальная реализация). **Шаги**: 1. Установить `mamba-ssm` и `causal-conv1d`. 2. Загрузить…
- wikiexpand
# expand ## Определение Параметр в MambaBlock, определяющий коэффициент расширения скрытого состояния (d_model=hidden_size, expand=2). ## Где встречается - [[60. Настроить…
- wikiHybridModel
# HybridModel ## Определение Гибридная модель, объединяющая Mamba и механизм внимания. Позволяет эффективно обрабатывать длинные последовательности. ## Где встречается - [[60. Настроить гибрид (Mamba…
- wikiGPT2Block
…Используется в гибридных моделях, сочетающих Mamba и Attention. ## Где встречается - [[60. Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention…
- wikiParallel prefix sum
# Parallel prefix sum ## Определение Алгоритм параллельного вычисления префиксных сумм, используемый в архитектурах вроде Mamba для эффективных рекуррентных вычислений. ## Где встречается…
- wikiZamba
# Zamba ## Определение Гибридная архитектура нейросети, объединяющая State Space Model (Mamba) и механизм внимания (attention). Направлена на улучшение эффективности обработки длинных…
- wikiрекуррентное обновление
# рекуррентное обновление ## Определение Последовательное обновление скрытого состояния на каждом шаге State Space Model (SSM), характерное для архитектуры Mamba. ## Где встречается…
- wikiконстантная память
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiассоциативный сканер
# ассоциативный сканер ## Определение Параллельный алгоритм для эффективного вычисления selective scan в моделях типа Mamba, использующий бинарную ассоциативность операции для вычисления…
- wikiSelective state space
# Selective state space ## Определение Механизм в архитектуре Mamba для выборочного обновления скрытого состояния в зависимости от входных данных, улучшающий эффективность…
- answerКогда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?
…Инструменты - Библиотеки: `[[Вики/transformers\|transformers]]`, `mamba_ssm` (официальная реализация [[Вики/Mamba\|Mamba]]), `[[Вики/датасеты\|datasets]]`. - [[Вики/dataset\|Датасет]]: `Long [[Вики…
- wikiBigBird
…Как работает Mamba (State Space Model) и чем она лучше трансформера]] - [[60. Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba…
- wikigradcheck
…Реализовать selective scan (Mamba)|53. Реализовать selective scan (Mamba)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikiCLUTRR
…Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikiblock_size
…Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikiPG-19 dataset
…Развернуть Mamba-2 локально|51. Развернуть Mamba-2 локально]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikiSuperGLUE
…Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikiWikiText-103
…Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikiGLUE
…Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikiBoolQ
…Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikiRecurrent operation
…Реализовать selective scan (Mamba)|53. Реализовать selective scan (Mamba)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikicuda-memcheck
…Реализовать selective scan (Mamba)|53. Реализовать selective scan (Mamba)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikiSynthetic batch
…Настроить гибрид (Mamba + Attention)|60. Настроить гибрид (Mamba + Attention)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikitorch.autograd.Function
…Реализовать selective scan (Mamba)|53. Реализовать selective scan (Mamba)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikitorch.utils.cpp_extension
…Реализовать selective scan (Mamba)|53. Реализовать selective scan (Mamba)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить архитектуры на reasoning задачах (Mamba vs Transformer vs RWKV vs Hyena)
…Цель задачи Провести практическое сравнение четырёх архитектур нейронных сетей — [[Вики/Transformer\|Transformer]], [[Вики/Mamba\|Mamba]], [[Вики/RWKV\|RWKV]], [[Вики/Hyena…
- wikiS5
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikitorch.no_grad
…Развернуть Mamba-2 локально|51. Развернуть Mamba-2 локально]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
…Для длинных контекстов (128k+) [[Вики/Transformer\|Transformer]] становится неэффективен, [[Вики/Mamba\|Mamba]] или [[Вики/hybrid approach\|Hybrid]] выигрывают. ### 2.3…
- wikiinference_mode
…Развернуть Mamba-2 локально|51. Развернуть Mamba-2 локально]] - [[220. Настроить wave decoding для коротких ответов|220. Настроить wave decoding…
- wikiStripedHyena
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- wikiдискретизация
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiматрица проекции B
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiматрица проекции C
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiматрица перехода A
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikiExponential moving averages
…Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context|716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long…
- wikiбутылочное горлышко
…Как работает Mamba (State Space Model) и чем она лучше трансформера|713. Как работает Mamba (State Space Model) и чем…
- wikinvcc
…Реализовать selective scan (Mamba)|53. Реализовать selective scan (Mamba)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…