safety alignment
safety alignment
Определение
Процесс выравнивания поведения модели с человеческими ценностями и требованиями безопасности, часто включающий дообучение и оценку.
Где встречается
- 36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
- 138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
- 298. Как вы тестируете robustness LLM к adversarial input (не только injection)
- 330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
- 333. Что такое preference data collection и как минимизировать bias в сравнениях
- 340. Что такое Constitutional AI и как RLHF связан с ним
- 345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
- 352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
- 355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
- 361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
- 365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
- 395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)
- 484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA
- 499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
- 539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 545. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
- 589. Как вы делаете agent с human values alignment (Constitutional AI для агентов)
- 594. Что такое agent safety constraints (ограничения на действия агента)
- 618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься
- 800+ вопросов
- 290. Реализовать swarm coordination