English translation is not available yet. Showing Russian content.
TruthfulQA
TruthfulQA
Определение
Бенчмарк для оценки правдивости ответов LLM и склонности к галлюцинациям. Используется для измерения безопасности модели после RLHF или RLAIF.
Где встречается
- 297. Что такое representation engineering (RepE) и зачем он нужен
- 330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 489. Что такое reward hacking в RLHF и как его детектировать
- 872. Что такое calibration для LLM и как её измерять (ECE)
- 873. Как детектировать reward hacking в RLHF
- 800+ вопросов