Helpfulness / Harmlessness
Helpfulness / Harmlessness
Определение
Метрики качества и безопасности ответов LLM: полезность (helpfulness) и безвредность (harmlessness); используются в бенчмарках HH-RLHF.
Где встречается
- 336. Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 495. Что такое pairwise comparison vs scalar rating Когда что использовать
- 723. Как моделировать экономику агентов с ограниченными бюджетами на API вызовы