Многошаговая jailbreak-атака

Многошаговая jailbreak-атака

Определение

Атака на LLM, при которой вредоносный запрос разбивается на серию из 10-20 сообщений, чтобы обойти защитные механизмы и получить запрещённый ответ.

Где встречается

Навигация