AgentBench
AgentBench
Определение
Бенчмарк для оценки LLM-агентов в 8 средах (web, CLI, SQL и др.), подверженный проблемам construct validity и saturation.
Где встречается
- 498. Что такое meta-evaluation бенчмарков (оценка оценки)
- 874. Как оценивать multi-step agents (не только final answer)
- 800+ вопросов