中文翻译暂不可用,显示俄语原文。
cross-layer attention
cross-layer attention
Определение
Механизм внимания, который позволяет токену на одном слое сети обращаться к представлениям другого слоя, а не только к текущему. Используется в некоторых архитектурах (H3, RWKV) для улучшения передачи информации.
Где встречается
- 299. Как работает attention между слоями (cross-layer attention) в современных архитектурах
- 800+ вопросов