YaRN
YaRN
Определение
Метод интерполяции позиционных кодировок RoPE с температурным параметром и масштабированием, позволяющий экстраполировать контекст до 32× обученной длины без дообучения.
Где встречается
- 626. Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)
- 627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
- 630. Как работает RoPE (Rotary Position Embeddings) для экстраполяции на длинные контексты
- 639. Как вы делаете model selection для long context (какая модель лучше держит 100k+)
- 648. Что такое streaming LLM для бесконечного контекста (техника rollback)
- 653. Что такое position encoding RoPE vs абсолютные позиции vs относительные позиции
- 800+ вопросов