Anthropic HH‑RLHF

Anthropic HH‑RLHF

Определение

Anthropic HH‑RLHF — это датасет от Anthropic, содержащий диалоги ассистента и человека, размеченные на полезность и безвредность (Helpful and Harmless). Он используется для обучения моделей через RLHF (Reinforcement Learning from Human Feedback), чтобы модели выдавали более безопасные и этичные ответы. Датасет включает тысячи примеров, где предпочтения людей явно указаны.

Где встречается

Навигация