Adversarial validation
Adversarial validation
Определение
Adversarial validation (состязательная валидация) — метод проверки модели на наличие нежелательных паттернов, при которых модель даёт правильный ответ, но использует некорректные или «жульнические» рассуждения. Цель — выявить случаи, когда модель полагается на поверхностные признаки или shortcut-решения, а не на истинное понимание задачи. Этот подход особенно важен в задачах reasoning, где важен не только финальный ответ, но и процесс его получения.