Jamba
Jamba
Определение
Гибридная архитектура от AI21 Labs, чередующая Mamba-слои (State Space Models), attention-слои и MoE (Mixture of Experts). Сочетает эффективность SSM с качеством attention.
Где встречается
- 713. Как работает Mamba (State Space Model) и чем она лучше трансформера
- 716. Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context
- 60. Настроить гибрид (Mamba + Attention)