HarmfulQA
HarmfulQA
Определение
HarmfulQA — это набор данных (датасет), содержащий запросы (промпты), которые могут привести к генерации вредоносного, опасного или неэтичного контента. Используется для тестирования и обучения моделей искусственного интеллекта на устойчивость к вредоносным запросам, а также для создания preference пар (предпочтительных и нежелательных ответов) в рамках методов конституционного ИИ (Constitutional AI).