RoPE

Определение

Метод позиционного кодирования в трансформерах, который кодирует относительные позиции токенов через вращение векторов в комплексной плоскости, позволяя экстраполировать на длины контекста, превышающие тренировочные.

Где встречается

2 Как вы решаете проблему lost in the middle при работе с длинными контекстами
278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций
286. Как вы детектируете и фиксите attention sinks в длинных контекстах
626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
629. Как работает sliding window attention в Mistral и Longformer
630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты
647. Как вы делаете long context для code generation (модель должна видеть весь репозиторий)
648. Что такое streaming LLM для бесконечного контекста (техника rollback)
653. Что такое position encoding RoPE vs абсолютные позиции vs относительные позиции
668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
677. Как работает forward pass LLM от токена до вероятности следующего токена
800+ вопросов
54. Сравнить Hyena vs FlashAttention на 128k
59. Сравнить архитектуры на reasoning задачах

RoPE

RoPE

Определение

Где встречается

Навигация