lm-evaluation-harness
lm-evaluation-harness
Определение
Инструмент EleutherAI для унифицированного запуска бенчмарков, сбора статистики и проверки contamination при оценке LLM.
Где встречается
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 488. Что такое benchmark contamination и как ее детектировать
- 498. Что такое meta-evaluation бенчмарков (оценка оценки)
- 68. Настроить inference-time scaling