LongBench

Определение

Бенчмарк из 21 задачи (QA, суммаризация, few-shot learning) с длиной контекста от 5k до 15k токенов для оценки способности моделей работать с длинными контекстами.

Где встречается

627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
633. Как вы оцениваете reasoning capability (не просто recall) на длинном контексте
879. Как делать evaluation для long-context RAG (100k токенов)
800+ вопросов
60. Настроить гибрид (Mamba + Attention)

LongBench

LongBench

Определение

Где встречается

Навигация