safety alignment

Определение

Процесс выравнивания поведения модели с человеческими ценностями и требованиями безопасности, часто включающий дообучение и оценку.

Где встречается

36. Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF
138. Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной
298. Как вы тестируете robustness LLM к adversarial input (не только injection)
330. Что такое RLAIF (RL from AI Feedback) и как он масштабируется
333. Что такое preference data collection и как минимизировать bias в сравнениях
340. Что такое Constitutional AI и как RLHF связан с ним
345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
352. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
355. Как вы защищаете LLM от градиентных атак (white-box jailbreak)
361. Как работает CLIP и как training contrastive loss выравнивает текст и изображения
365. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)
484. Что такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA
499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
539. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
545. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)
589. Как вы делаете agent с human values alignment (Constitutional AI для агентов)
594. Что такое agent safety constraints (ограничения на действия агента)
618. Что такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься
800+ вопросов
290. Реализовать swarm coordination

safety alignment

safety alignment

Определение

Где встречается

Навигация

safety alignment

safety alignment

Определение

Где встречается

Навигация