RULER

Определение

Бенчмарк для оценки long-context способностей модели, включающий задачи multi-needle, variable tracking и common word extraction.