中文翻译暂不可用,显示俄语原文。
Longformer
Longformer
Определение
Модель-трансформер с разреженным вниманием, комбинирующая sliding window attention и глобальные токены для эффективной обработки длинных документов.
Где встречается
- 35. Как вы fine-tune embedding модель под свой домен (а не используете готовую)
- 276. Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется
- 281. Что такое sliding window attention и зачем он в Mistral
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 629. Как работает sliding window attention в Mistral и Longformer
- 632. Как работает Infini-attention (Google, 2024) для бесконечного контекста
- 646. Как работает attention с линейной сложностью (Linformer, Performer, Longformer)
- 647. Как вы делаете long context для code generation (модель должна видеть весь репозиторий)
- 713. Как работает Mamba (State Space Model) и чем она лучше трансформера
- 800+ вопросов
- 57. Настроить recurrent memory для long context
- 60. Настроить гибрид (Mamba + Attention)
- 133. Реализовать cost-aware routing