Multi-needle
Multi-needle
Определение
Усложнение теста «Needle in a Haystack» с несколькими связанными фактами для проверки multi-hop reasoning.
Где встречается
- 633. Как вы оцениваете reasoning capability (не просто recall) на длинном контексте
- 879. Как делать evaluation для long-context RAG (100k токенов)
- 800+ вопросов