Anthropic HH‑RLHF
Anthropic HH‑RLHF
Определение
Anthropic HH‑RLHF — это датасет от Anthropic, содержащий диалоги ассистента и человека, размеченные на полезность и безвредность (Helpful and Harmless). Он используется для обучения моделей через RLHF (Reinforcement Learning from Human Feedback), чтобы модели выдавали более безопасные и этичные ответы. Датасет включает тысячи примеров, где предпочтения людей явно указаны.
Где встречается
-
- Как деплоить RLHF-модель в production?