Llama Guard

Определение

Модель для классификации безопасности промптов и определения вредоносных ответов LLM, используемая в runtime. Специализированная маленькая LLM (7B) для фильтрации ввода/вывода.

Где встречается

345. Как вы проектируете red teaming evaluation для jailbreak устойчивости
597. Что такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)
616. Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)
625. Что такое adversarial prompt detection для реального времени (runtime)
800+ вопросов

Llama Guard

Llama Guard

Определение

Где встречается

Навигация