NTK-aware scaling

Определение

NTK-aware scaling (масштабирование, учитывающее Neural Tangent Kernel) — метод адаптации частот RoPE (Rotary Position Embedding) для расширения контекстного окна. Высокие частоты остаются чувствительными к локальным позициям, а низкие — к глобальным, что позволяет модели эффективно работать с длинными последовательностями.

Где встречается

980. Как сделать fine-tuning модели на 1 млн токенов контекста (например, для анализа кодовой базы)?

NTK-aware scaling

NTK-aware scaling

Определение

Где встречается

Навигация