L-Eval
L-Eval
Определение
Бенчмарк для оценки способности LLM к рассуждению на длинных контекстах, включающий 18 задач multi-document reasoning.
Где встречается
- 633. Как вы оцениваете reasoning capability (не просто recall) на длинном контексте
- 639. Как вы делаете model selection для long context (какая модель лучше держит 100k+)