Llama Guard
Llama Guard
Определение
Модель для классификации безопасности промптов и определения вредоносных ответов LLM, используемая в runtime. Специализированная маленькая LLM (7B) для фильтрации ввода/вывода.
Где встречается
- 345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
- 597. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
- 616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
- 625. Что такое adversarial prompt detection для реального времени (runtime)
- 800+ вопросов