NTK-aware scaling

NTK-aware scaling

Определение

NTK-aware scaling (масштабирование, учитывающее Neural Tangent Kernel) — метод адаптации частот RoPE (Rotary Position Embedding) для расширения контекстного окна. Высокие частоты остаются чувствительными к локальным позициям, а низкие — к глобальным, что позволяет модели эффективно работать с длинными последовательностями.

Где встречается

Навигация