ALiBi
ALiBi
Определение
Метод относительного позиционирования, добавляющий линейный штраф к attention score в зависимости от расстояния между токенами. Обеспечивает хорошую экстраполяцию на длинные контексты.
Где встречается
- 278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
- 648. Что такое streaming LLM для бесконечного контекста (техника rollback)
- 653. Что такое position encoding RoPE vs абсолютные позиции vs относительные позиции
- 668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 54. Сравнить Hyena vs FlashAttention на 128k