English translation is not available yet. Showing Russian content.
LongBench
LongBench
Определение
Бенчмарк из 21 задачи (QA, суммаризация, few-shot learning) с длиной контекста от 5k до 15k токенов для оценки способности моделей работать с длинными контекстами.
Где встречается
- 627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
- 633. Как вы оцениваете reasoning capability (не просто recall) на длинном контексте
- 879. Как делать evaluation для long-context RAG (100k токенов)
- 800+ вопросов
- 60. Настроить гибрид (Mamba + Attention)