ALiBi

Определение

Метод относительного позиционирования, добавляющий линейный штраф к attention score в зависимости от расстояния между токенами. Обеспечивает хорошую экстраполяцию на длинные контексты.

Где встречается

278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций
286. Как вы детектируете и фиксите attention sinks в длинных контекстах
626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
648. Что такое streaming LLM для бесконечного контекста (техника rollback)
653. Что такое position encoding RoPE vs абсолютные позиции vs относительные позиции
668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
677. Как работает forward pass LLM от токена до вероятности следующего токена
54. Сравнить Hyena vs FlashAttention на 128k

ALiBi

ALiBi

Определение

Где встречается

Навигация