English translation is not available yet. Showing Russian content.
LiveBench
LiveBench
Определение
Динамический бенчмарк для LLM, который еженедельно обновляется на основе свежих новостей, чтобы избежать data contamination и обеспечить объективную оценку.
Где встречается
- 350. Как вы детектируете data contamination в evaluation датасетах
- 869. Как избежать benchmark contamination (когда модель видела тестовые данные)