NTK-aware scaling
NTK-aware scaling
Определение
NTK-aware scaling (масштабирование, учитывающее Neural Tangent Kernel) — метод адаптации частот RoPE (Rotary Position Embedding) для расширения контекстного окна. Высокие частоты остаются чувствительными к локальным позициям, а низкие — к глобальным, что позволяет модели эффективно работать с длинными последовательностями.
Где встречается
- 980. Как сделать fine-tuning модели на 1 млн токенов контекста (например, для анализа кодовой базы)?