English translation is not available yet. Showing Russian content.

Почему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?

Краткий тезис

Трансформеры сохраняют лидерство благодаря механизму внимания (attention), который обеспечивает произвольный доступ к любому токену в контексте без потери информации. State Space Models (SSM) вынуждены сжимать всю историю в фиксированное состояние, что ведёт к забыванию. Кроме того, трансформеры имеют огромную экосистему оптимизаций (FlashAttention, vLLM) и лучше обобщаются на новые структуры данных. Однако гибридные архитектуры, сочетающие attention и SSM, становятся стандартом и постепенно размывают границу.


1. Термины: Transformer, SSM, Attention, State

Transformer — архитектура нейросети, основанная на механизме self-attention. Позволяет модели напрямую сравнивать все пары токенов во входной последовательности, вычисляя веса важности.

State Space Model (SSM) — класс моделей, которые описывают динамику системы через скрытое состояние state и линейные рекуррентные уравнения. В контексте NLP SSM (например, Mamba, S4) обрабатывают последовательность, обновляя состояние на каждом шаге.

Attention — операция, которая для каждого токена вычисляет взвешенную сумму значений всех токенов, где веса зависят от сходства запроса (query) и ключа (key). Это даёт произвольный доступ к любому прошлому токену.

State — в SSM это вектор фиксированной размерности, который агрегирует информацию о всей предыдущей последовательности. Размер состояния ограничен, поэтому при длинных контекстах происходит сжатие и потеря деталей.


2. Ключевое преимущество: произвольный доступ к контексту (no forgetting)

В трансформере каждый токен может «увидеть» любой другой токен через механизм attention. Это означает, что модель не забывает информацию, даже если она появилась в начале последовательности длиной 100k токенов. Математически attention вычисляет матрицу весов размером (L, L), где L — длина последовательности.

# Псевдокод attention
def attention(Q, K, V):
    scores = Q @ K.T / sqrt(d_k)  # (L, L)
    weights = softmax(scores, dim=-1)
    output = weights @ V          # (L, d)
    return output

SSM же на каждом шаге обновляет состояние h_t = A * h_{t-1} + B * x_t. Информация о далёких токенах должна сохраняться в h, но из-за фиксированной размерности и рекуррентной природы происходит забывание (forgetting). Эксперименты показывают, что SSM теряют детали после ~10k токенов, тогда как трансформеры могут удерживать контекст до миллиона токенов (при наличии достаточной памяти).


3. SSM сжимает историю — информация теряется

SSM работают как сжатие с потерями: вся последовательность кодируется в вектор состояния размером d (обычно 1024–4096). Если в последовательности больше уникальной информации, чем может вместить состояние, часть данных теряется. Это особенно критично для задач, где важны точные детали: извлечение фактов, следование инструкциям, работа с таблицами.

ХарактеристикаTransformer (attention)SSM (state)
Доступ к контекстуПрямой, O(1) на токенЧерез состояние, сжатие
ЗабываниеНет (теоретически)Есть, зависит от размера state
Сложность на длинных контекстахO(L²) (квадратичная)O(L) (линейная)
Точность на задачах с деталямиВысокаяСредняя (теряет редкие факты)

Пример: В задаче «извлеки все даты из документа длиной 50k токенов» трансформер с attention найдёт все даты, а SSM может пропустить даты из середины, если состояние переполнилось.


4. Индуктивный bias: трансформеры лучше обобщают на новые структуры

Индуктивный bias — это предположения, заложенные в архитектуру, которые помогают модели обучаться. У трансформеров bias на попарные взаимодействия и позиционную информацию (через positional encoding). Это позволяет им легко улавливать паттерны типа «если A и B находятся в определённом отношении, то ответ C».

SSM имеют bias на линейную рекуррентность — они предполагают, что следующее состояние линейно зависит от предыдущего. Это хорошо для моделирования непрерывных сигналов (аудио, временные ряды), но хуже для дискретных структур с долгосрочными зависимостями (текст, код). Исследования 2024–2025 годов показали, что SSM хуже справляются с задачами на обобщение композиций (compositional generalization), например, следование сложным инструкциям из нескольких шагов.


5. Экосистема и оптимизации: FlashAttention, vLLM, обучение

Трансформеры доминируют не только из-за архитектуры, но и благодаря огромной инженерной инфраструктуре:

  • FlashAttention — алгоритм, который вычисляет attention быстрее и с меньшим потреблением памяти, используя tiling и аппаратные особенности GPU. Позволяет обрабатывать контексты до 128k токенов на одном GPU.
  • vLLM — библиотека для инференса, оптимизирующая кэш ключей/значений (KV cache) и управление памятью. Делает трансформеры эффективными для продакшена.
  • PagedAttention — техника из vLLM, которая разбивает KV cache на страницы, уменьшая фрагментацию.
  • Обучение: для трансформеров разработаны эффективные методы (ZeRO, DeepSpeed, Megatron-LM), позволяющие обучать модели с сотнями миллиардов параметров.

Для SSM таких оптимизаций пока меньше. Хотя Mamba использует параллельные сканирования (parallel scan) и аппаратно-эффективные ядра, экосистема уступает трансформерам по зрелости. В 2026 году ситуация меняется, но трансформеры всё ещё имеют преимущество в скорости инференса на коротких и средних контекстах благодаря оптимизированным библиотекам.


6. Тенденция: гибридные архитектуры становятся стандартом

Начиная с 2024 года, всё больше моделей комбинируют attention и SSM:

  • Mamba-Transformer (Jamba) — чередует слои attention и Mamba. Attention отвечает за точное запоминание, SSM — за эффективную обработку длинных контекстов.
  • S4ND — использует SSM для обработки изображений, но с attention для глобальных связей.
  • Griffin (Google) — гибрид с рекуррентными блоками и attention.

Такие гибриды часто показывают лучший trade-off: качество, близкое к трансформерам, но с линейной сложностью по длине. Например, Jamba (2024) на задачах LongBench достигает 90% качества трансформера при вдвое меньших затратах памяти. К 2026 году гибриды могут стать стандартом для большинства приложений, но чистые трансформеры всё ещё выигрывают на задачах, где критична точность (юридические документы, медицинские записи).


7. Когда SSM всё же выигрывают?

SSM имеют преимущества в сценариях:

  • Очень длинные последовательности (>1M токенов) — attention квадратичен, SSM линеен.
  • Аудио и сигналы — SSM изначально разработаны для непрерывных данных.
  • Мобильные устройства — SSM требуют меньше памяти и энергии.
  • Режим реального времени — рекуррентная природа SSM позволяет обрабатывать поток токенов без хранения всей истории.

Однако на большинстве NLP-задач (вопросно-ответные системы, суммаризация, RAG) трансформеры остаются предпочтительнее из-за точности и зрелости инструментов.


8. Перспективы на 2026: что может измениться?

  • Улучшение SSM: новые варианты (Mamba-2, S5) уменьшают забывание за счёт более умного сжатия.
  • Гибриды как мейнстрим: большинство новых моделей будут гибридными.
  • Аппаратная поддержка: производители GPU начинают оптимизировать тензорные ядра под SSM-операции.
  • Специализированные задачи: для RAG с длинными документами SSM могут стать стандартом, если гибриды не обеспечат нужную точность.

Тем не менее, полная замена трансформеров маловероятна — attention слишком хорошо решает задачу точного извлечения информации.


Пет-проект для закрепления

Задача: Сравнить точность и скорость трансформера и SSM на задаче извлечения фактов из длинных документов.

Инструменты:

  • Hugging Face Transformers (модель Llama-2-7B или её аналог)
  • Mamba (реализация от авторов, mamba-hf)
  • Датасет: LongBench (раздел "HotpotQA" или "NarrativeQA") или синтетические документы длиной 10k–50k токенов с вставленными фактами.
  • Метрики: точность извлечения (F1), время инференса, пиковое потребление памяти.

Шаги:

  1. Загрузите модель-трансформер (например, meta-llama/Llama-2-7b-hf) и модель Mamba (state-spaces/mamba-2.8b).
  2. Подготовьте тестовые запросы: для каждого документа задайте вопрос, ответ на который находится в определённой позиции (начало, середина, конец).
  3. Запустите инференс обеих моделей, замерьте время и точность.
  4. Постройте график зависимости точности от длины документа.
  5. Сравните потребление памяти (используйте torch.cuda.max_memory_allocated()).

Ожидаемый результат: Вы увидите, что трансформер сохраняет высокую точность на всех длинах, а SSM начинает терять факты после 10k–20k токенов. При этом SSM будет быстрее на длинах >50k токенов.


Связь с другими вопросами

ВопросТема
1Архитектура Transformer и механизм Attention
2State Space Models (S4, Mamba)
3Гибридные архитектуры (Jamba, Griffin)
4FlashAttention и оптимизации инференса
5Long context в RAG и Agentic системах

Навигация