English translation is not available yet. Showing Russian content.
State Space Model
State Space Model
Определение
Архитектура нейросети, использующая рекуррентное обновление скрытого состояния на основе модели пространства состояний. SSM-архитектуры эффективнее трансформеров для очень длинных контекстов, но сжимают информацию, что может приводить к потерям.
Где встречается
- 299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
- 640. Как работает Multi-query attention (MQA) для long context
- 713. Как работает Mamba (State Space Model) и чем она лучше трансформера
- 715. Hyena как заменить attention на свертки, сохранив качество
- 716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context
- 718. Что такое Test-Time Training (TTT) слои и как они работают
- 727. Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия
- Практика
- 800+ вопросов
- 51. Развернуть Mamba-2 локально
- 53. Реализовать selective scan (Mamba)
- 59. Сравнить архитектуры на reasoning задачах
- 60. Настроить гибрид (Mamba + Attention)