Needle in a Haystack
Needle in a Haystack
Определение
Тест для оценки способности модели извлекать факт из длинного контекста. В середину документа вставляется факт, затем проверяется его recall на разных позициях и длинах.
Где встречается
- 627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
- 631. Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)
- 633. Как вы оцениваете reasoning capability (не просто recall) на длинном контексте
- 639. Как вы делаете model selection для long context (какая модель лучше держит 100k+)
- Практика
- 800+ вопросов