RULER
RULER
Определение
Бенчмарк для оценки long-context способностей модели, включающий задачи multi-needle, variable tracking и common word extraction.
Где встречается
- 627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
- 633. Как вы оцениваете reasoning capability (не просто recall) на длинном контексте
- 639. Как вы делаете model selection для long context (какая модель лучше держит 100k+)
- 879. Как делать evaluation для long-context RAG (100k токенов)
- 800+ вопросов