HarmfulQA

HarmfulQA

Определение

HarmfulQA — это набор данных (датасет), содержащий запросы (промпты), которые могут привести к генерации вредоносного, опасного или неэтичного контента. Используется для тестирования и обучения моделей искусственного интеллекта на устойчивость к вредоносным запросам, а также для создания preference пар (предпочтительных и нежелательных ответов) в рамках методов конституционного ИИ (Constitutional AI).

Где встречается

Навигация