red teaming

red teaming

Определение

Метод тестирования безопасности LLM-приложений путём имитации целенаправленных атак (adversarial). Цель — выявить уязвимости, такие как jailbreak, и повысить устойчивость модели.

Где встречается

Навигация