中文翻译暂不可用,显示俄语原文。
BigBird
BigBird
Определение
Модель со sparse attention, комбинирующая глобальное, локальное и случайное внимание для эффективной работы с длинными контекстами.
Где встречается
- 276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
- 281. Что такое sliding window attention и зачем он в Mistral
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 632. Как работает Infini-attention (Google, 2024) для бесконечного контекста
- 641. Что такое grouped-query attention (GQA) как компромисс для long context
- 713. Как работает Mamba (State Space Model) и чем она лучше трансформера
- 60. Настроить гибрид (Mamba + Attention)