safety benchmarks

Определение

Стандартизированные тесты (например, TruthfulQA, BBQ) для измерения безопасности и непредвзятости модели.