中文翻译暂不可用,显示俄语原文。
full attention
full attention
Определение
Стандартный механизм самовнимания (self-attention) с квадратичной сложностью O(n²) по длине последовательности, используемый как эталон для сравнения с разреженными подходами.
Где встречается
- 281. Что такое sliding window attention и зачем он в Mistral
- 283. Что такое selective attention в контексте long context обработки
- 425. Как работает sequence parallelism в контексте LLM
- 629. Как работает sliding window attention в Mistral и Longformer
- 800+ вопросов