Attention patterns
Attention patterns
Определение
Распределение весов внимания модели по токенам; визуализация этих паттернов помогает анализировать, на какие части входа модель обращает внимание.
Где встречается
- 2 Как вы решаете проблему lost in the middle при работе с длинными контекстами
- 195. Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее
- 653. Что такое position encoding RoPE vs абсолютные позиции vs относительные позиции
- 800+ вопросов