NTK-aware RoPE
NTK-aware RoPE
Определение
Метод масштабирования позиционных кодировок RoPE для работы с длинными контекстами за счёт изменения базовой частоты вращения, что позволяет равномерно покрывать большие позиции при экстраполяции.
Где встречается
- 278. Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
- 630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты
- 653. Что такое position encoding RoPE vs абсолютные позиции vs относительные позиции
- 800+ вопросов