…

L-Eval

L-Eval

Определение

Бенчмарк для оценки способности LLM к рассуждению на длинных контекстах, включающий 18 задач multi-document reasoning.

Где встречается

633. Как вы оцениваете reasoning capability (не просто recall) на длинном контексте
639. Как вы делаете model selection для long context (какая модель лучше держит 100k+)

Навигация