Constitutional AI
Constitutional AI
Определение
Подход, при котором LLM генерирует сравнения на основе заданных принципов (конституции), что лежит в основе RLAIF.
Где встречается
- 72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
- 330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
- 340. Что такое Constitutional AI и как RLHF связан с ним
- 344. Что такое reward hacking в RLHF и как его детектировать
- 360. Что такое adversarial fine-tuning для защиты от jailbreak
- 499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
- 589. Как вы делаете agent с human values alignment (Constitutional AI для агентов)
- 594. Что такое agent safety constraints (ограничения на действия агента)
- 616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
- 618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься
- 686. Как работает synthetic data для RLHF (предпочтения)
- 800+ вопросов