中文翻译暂不可用,显示俄语原文。
ARC
ARC
Определение
Бенчмарк для оценки научных рассуждений, состоящий из вопросов разной сложности (easy/challenge).
Где встречается
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 488. Что такое benchmark contamination и как ее детектировать