中文翻译暂不可用,显示俄语原文。
RoPE
RoPE
Определение
Метод позиционного кодирования в трансформерах, который кодирует относительные позиции токенов через вращение векторов в комплексной плоскости, позволяя экстраполировать на длины контекста, превышающие тренировочные.
Где встречается
- 2 Как вы решаете проблему lost in the middle при работе с длинными контекстами
- 278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций
- 286. Как вы детектируете и фиксите attention sinks в длинных контекстах
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
- 627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
- 629. Как работает sliding window attention в Mistral и Longformer
- 630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты
- 647. Как вы делаете long context для code generation (модель должна видеть весь репозиторий)
- 648. Что такое streaming LLM для бесконечного контекста (техника rollback)
- 653. Что такое position encoding RoPE vs абсолютные позиции vs относительные позиции
- 668. Что такое индуктивные biases трансформеров (positional invariance, order sensitivity)
- 677. Как работает forward pass LLM от токена до вероятности следующего токена
- 800+ вопросов
- 54. Сравнить Hyena vs FlashAttention на 128k
- 59. Сравнить архитектуры на reasoning задачах