TruthfulQA

Определение

Бенчмарк для оценки правдивости ответов LLM и склонности к галлюцинациям. Используется для измерения безопасности модели после RLHF или RLAIF.