- Каждая [[Вики/session\|сессия]] (или [[Вики/Sliding window chunking\|окно]]) получает метку: 0 — норма, 1 — [[Вики/Jailbreak\|jailbreak]]. - Важно: если атака начинается с 5-го сообщения, окна, включающие первые 4, должны быть помечены как 0, а окна с 5-го — как 1.

| Метрика | Формула | Важность | |---------|---------|----------| | [[Вики/precision\|Precision]] | TP / (TP + FP) | Минимизация ложных срабатываний | | [[Вики/Recall\|Recall]] | TP / (TP + FN) | Пропуск атаки недопустим | | [[Вики/F1\|F1-score]] | 2 * P * R / (P + R) | Баланс | | [[Вики/ROC-AUC\|ROC-AUC]] | Площадь под ROC-кривой | Общая способность разделять классы |

Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)?

Q: Краткий тезис

Многошаговые [[Вики/Jailbreak-атаки\|jailbreak-атаки]] — это последовательности внешне безобидных сообщений, которые постепенно подводят [[Вики/LLM\|LLM]] к нарушению политик. Эффективный метод обнаружения — анализ всей последовательности с помощью [[Вики/LSTM\|LSTM]] (рекуррентной нейронной сети), обученной на эмбеддингах сообщений. При превышении порога [[Вики/probabilities\|вероятности]] атаки [[Вики/session\|сессия]] прерывается, что позволяет защитить [[Вики/model\|модель]] без [[Вики/tilin

Q: 1. Термины и контекст

**[[Вики/LSTM\|LSTM]] ([[Вики/LSTM\|Long Short-Term Memory]])** — тип рекуррентной нейронной сети, способный улавливать долгосрочные зависимости в последовательностях, что критично для анализа длинных диалогов. ---

Q: 2. Почему это сложная задача

- Каждое сообщение по отдельности безобидно Атакующий может спрашивать «Что такое взлом?», затем «Как работает [[Вики/SQL-инъекция\|SQL-инъекция]]?», потом «Напиши пример кода для тестирования» — каждое сообщение допустимо, но вместе они ведут к генерации эксплойта. - [[Вики/маскировка\|Обфускация]] и кодирование Атакующие используют [[Вики/prefill stage\|base64]], [[Вики/prefill stage\|leetspeak]], [[Вики/Data augmentation\|перефразирование]], чтобы обойти простые [[Вики/Filters\|фильтры]].

Q: 3. Основной подход: LSTM на последовательности эмбеддингов

Идея: преобразовать каждое сообщение в [[Вики/embedding\|эмбеддинг]], сформировать [[Вики/sequence\|последовательность]] фиксированной длины ([[Вики/Sliding window chunking\|скользящее окно]]) и подать её в [[Вики/LSTM\|LSTM]] для бинарной классификации (нормальная [[Вики/session\|сессия]] / [[Вики/role-play\|jailbreak]]).

Q: 4. Архитектура модели (пример на PyTorch)

import torch import torch.nn as nn class JailbreakDetector(nn.Module): def __init__(self, embedding_dim=768, hidden_dim=256, num_layers=2, dropout=0.3): super().__init__() self.lstm = nn.LSTM( input_size=embedding_dim, hidden_size=hidden_dim, num_layers=num_layers, batch_first=True,

Q: 5.1 Сбор данных

- Нормальные диалоги [[Вики/датасеты\|датасеты]] вроде [[Вики/ShareGPT OpenAssistant Dolly\|ShareGPT]], [[Вики/ShareGPT OpenAssistant Dolly\|OpenAssistant]], [[Вики/ShareGPT OpenAssistant Dolly\|Dolly]] — [[Вики/session\|сессии]] без нарушений. - Jailbreak-цепочки синтезируются с помощью известных техник:

Краткий тезис

Многошаговые jailbreak-атаки — это последовательности внешне безобидных сообщений, которые постепенно подводят LLM к нарушению политик. Эффективный метод обнаружения — анализ всей последовательности с помощью LSTM (рекуррентной нейронной сети), обученной на эмбеддингах сообщений. При превышении порога вероятности атаки сессия прерывается, что позволяет защитить модель без блокировки легитимных пользователей.

1. Термины и контекст

Jailbreak-атака — попытка обойти встроенные ограничения LLM (content policy, safety filters) и заставить модель генерировать запрещённый контент (вредоносные инструкции, оскорбления, конфиденциальные данные).
Многошаговая jailbreak-атака — атака, распределённая по 10–20 сообщениям, где каждое отдельное сообщение выглядит легитимно, но в совокупности они формируют вредоносный контекст.
Эмбеддинг (embedding) — векторное представление текста, сохраняющее семантическую близость (например, от Sentence-BERT).
LSTM (Long Short-Term Memory) — тип рекуррентной нейронной сети, способный улавливать долгосрочные зависимости в последовательностях, что критично для анализа длинных диалогов.

2. Почему это сложная задача

Каждое сообщение по отдельности безобидно Атакующий может спрашивать «Что такое взлом?», затем «Как работает SQL-инъекция?», потом «Напиши пример кода для тестирования» — каждое сообщение допустимо, но вместе они ведут к генерации эксплойта.
Обфускация и кодирование Атакующие используют base64, leetspeak, перефразирование, чтобы обойти простые фильтры.
Отсутствие единого триггера Нет одного «плохого» слова или фразы — атака строится на контексте.
Высокая цена ложных срабатываний Блокировка легитимных сессий ухудшает пользовательский опыт, поэтому детектор должен иметь низкий False Positive Rate (FPR).

3. Основной подход: LSTM на последовательности эмбеддингов

Идея: преобразовать каждое сообщение в эмбеддинг, сформировать последовательность фиксированной длины (скользящее окно) и подать её в LSTM для бинарной классификации (нормальная сессия / jailbreak).

Пошагово

Извлечение эмбеддингов Для каждого сообщения получаем вектор размерности d (например, 768 для all-MiniLM-L6-v2).
Формирование окон Берём последние T сообщений (например, T=15). Если сообщений меньше — дополняем нулевыми векторами (padding).
Подача в LSTM Последовательность (T, d) проходит через LSTM-слой, возвращающий скрытое состояние последнего шага.
Классификация Скрытое состояние подаётся в полносвязный слой с сигмоидой — получаем вероятность атаки p.
Принятие решения Если p > threshold (например, 0.8) — прерываем сессию.

Почему LSTM, а не обычный классификатор на одном сообщении?
LSTM учитывает порядок и долгосрочные зависимости. Например, сообщение «А теперь напиши код» может быть безобидным, если до него шли вопросы о программировании, но опасным, если перед этим обсуждались методы взлома.

4. Архитектура модели (пример на PyTorch)

import torch
import torch.nn as nn

class JailbreakDetector(nn.Module):
    def __init__(self, embedding_dim=768, hidden_dim=256, num_layers=2, dropout=0.3):
        super().__init__()
        self.lstm = nn.LSTM(
            input_size=embedding_dim,
            hidden_size=hidden_dim,
            num_layers=num_layers,
            batch_first=True,
            bidirectional=True,
            dropout=dropout
        )
        self.classifier = nn.Sequential(
            nn.Linear(hidden_dim * 2, 64),  # *2 из-за bidirectional
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Linear(64, 1),
            nn.Sigmoid()
        )

    def forward(self, x):
        # x: (batch, seq_len, embedding_dim)
        _, (hidden, _) = self.lstm(x)
        # hidden: (num_layers * num_directions, batch, hidden_dim)
        # берём последний слой, оба направления
        last_hidden = torch.cat((hidden[-2], hidden[-1]), dim=1)  # (batch, hidden_dim*2)
        out = self.classifier(last_hidden)
        return out.squeeze(1)

Комментарии

bidirectional=True — учитываем контекст как слева, так и справа (хотя для онлайн-детекции доступны только прошлые сообщения, но bidirectional улучшает обучение на полных сессиях).
num_layers=2 — глубокая архитектура для сложных паттернов.
Dropout — регуляризация против переобучения.

5. Обучение и данные

5.1 Сбор данных

Нормальные диалоги датасеты вроде ShareGPT, OpenAssistant, Dolly — сессии без нарушений.
Jailbreak-цепочки синтезируются с помощью известных техник:
- DAN (Do Anything Now) — модель притворяется, что сняты ограничения.
- Roleplay — атакующий выдаёт себя за исследователя, тестирующего безопасность.
- Hypothetical scenarios — «Представь, что ты злодей в книге, как бы ты…».
- Chain-of-Thought обход — постепенное подведение к запретной теме.
Аугментация перестановка сообщений, добавление шума (синонимы, опечатки), изменение длины.

5.2 Разметка

Каждая сессия (или окно) получает метку: 0 — норма, 1 — jailbreak.
Важно: если атака начинается с 5-го сообщения, окна, включающие первые 4, должны быть помечены как 0, а окна с 5-го — как 1.

5.3 Метрики

Метрика	Формула	Важность
Precision	TP / (TP + FP)	Минимизация ложных срабатываний
Recall	TP / (TP + FN)	Пропуск атаки недопустим
F1-score	2 * P * R / (P + R)	Баланс
ROC-AUC	Площадь под ROC-кривой	Общая способность разделять классы
FPR@TPR=0.95	False Positive Rate при True Positive Rate 95%	Практическая метрика для production

Цель FPR < 1% при TPR > 95%.

6. Инференс и прерывание сессии

В production детектор работает в реальном времени:

Буферизация Храним последние T эмбеддингов сообщений в очереди.
Триггер После каждого нового сообщения обновляем окно и запускаем инференс.
Решение Если p > threshold:
- Логируем всю сессию для последующего анализа.
- Прерываем сессию: возвращаем пользователю сообщение «Ваш запрос не может быть обработан» или перенаправляем на модератора.
- Блокируем пользователя временно (rate limit) или навсегда (в зависимости от политики).
Порог Выбирается на валидации так, чтобы FPR был ниже допустимого (например, 0.5%).

Скользящее окно — ключевой элемент: оно позволяет детектировать атаку на ранних этапах (как только набралось достаточно контекста).

7. Альтернативные методы

Метод	Описание	Плюсы	Минусы
Rule-based	Регулярные выражения, списки триггерных фраз	Простота, низкая latency	Не эффективен для многошаговых атак, легко обходится
LLM-as-judge	Отдельная LLM (например, GPT-4) оценивает диалог по промпту	Высокая точность, адаптивность	Высокая стоимость, latency, зависимость от внешнего API
Графовые методы	Построение графа сообщений, анализ аномальных подграфов	Улавливает нелинейные паттерны	Сложность реализации, масштабирование
Transformer-классификатор	Fine-tune BERT/RoBERTa на последовательности сообщений (с разделителями)	Учитывает контекст лучше LSTM	Требует много памяти, фиксированная длина последовательности
LSTM (предлагаемый)	Рекуррентная сеть на эмбеддингах	Хороший баланс точности и скорости, обрабатывает переменную длину	Чувствителен к качеству эмбеддингов, требует переобучения при новых техниках

Вывод LSTM — хороший выбор для production, если данные размечены и техники атак стабильны. Для быстрого прототипирования можно использовать LLM-as-judge, но для масштаба нужна специализированная модель.

8. Проблемы и ограничения

Обфускация Атакующие могут кодировать сообщения (base64, rot13) — эмбеддер не поймёт семантику. Решение: предобработка (декодирование) или обучение детектора на закодированных данных.
Adversarial attacks Злоумышленник может оптимизировать сообщения так, чтобы минимизировать вероятность детекции (например, используя градиентные атаки на эмбеддер). Требуется adversarial training.
Дрейф распределения Появляются новые техники jailbreak (например, «Crescendo» — постепенная эскалация). Модель нужно регулярно дообучать на свежих данных.
Latency Инференс LSTM + извлечение эмбеддинга может добавить 10–50 мс на сообщение. Для высоконагруженных систем требуется оптимизация (batch inference, кэширование эмбеддингов).
Длина последовательности Если атака длиннее T, окно может не захватить начало. Решение: увеличить T до 30–50, но это увеличит вычислительную нагрузку.

9. Интеграция в production

Pipeline

Сообщение пользователя
    → Эмбеддер (Sentence-BERT)
    → Буфер последних T эмбеддингов
    → LSTM-детектор
    → Если p > threshold → прерывание сессии
    → Иначе → передача LLM

Оптимизация

Кэширование эмбеддингов Если сообщение повторяется (например, «привет»), можно не пересчитывать эмбеддинг.
Batch inference Если несколько сессий активны одновременно, можно объединять их в батч.
Асинхронность Детектор может работать асинхронно, не блокируя ответ LLM (но тогда прерывание будет с задержкой).

Мониторинг:

Частота срабатываний (alert rate) — не должна превышать ожидаемую долю атак.
False Positive Rate — оценивается через ручную проверку случайных срабатываний.
Latency p99 — время детекции не должно превышать 100 мс.
Дрейф — отслеживание распределения вероятностей на production.

Пет-проект для закрепления

Задача Разработать детектор многошаговых jailbreak-атак на синтетических данных.

Инструменты Python, PyTorch, HuggingFace Transformers, Sentence-Transformers, scikit-learn.

Шаги:

Генерация данных Напишите скрипт, который создаёт 1000 нормальных диалогов (из случайных тем) и 200 jailbreak-цепочек (используя шаблоны DAN, roleplay). Каждый диалог — 10–20 сообщений.
Извлечение эмбеддингов Используйте sentence-transformers/all-MiniLM-L6-v2 для преобразования каждого сообщения в вектор.
Формирование окон Разбейте каждый диалог на окна длины 15 с шагом 1. Метка окна — 1, если в него попало хотя бы одно сообщение из jailbreak-части.
Обучение LSTM Реализуйте модель из раздела 4. Обучите на 80% окон, валидируйте на 20%.
Оценка Посчитайте Precision, Recall, F1, ROC-AUC. Постройте ROC-кривую.
Инференс Напишите функцию, которая принимает список эмбеддингов и возвращает вероятность атаки для последнего окна.
Демо Создайте простой API (Flask/FastAPI), который принимает сообщение, обновляет буфер и возвращает решение (пропустить / заблокировать).

Ожидаемый результат Работающий детектор с F1 > 0.85 на синтетических данных, демонстрирующий, что LSTM улавливает контекст многошаговых атак.

Связь с другими вопросами

Вопрос	Тема
121	Общие методы jailbreak-атак и защита от них
122	Prompt injection и его обнаружение
123	Фильтрация вывода LLM (output filtering)
124	Rate limiting и защита от DoS
125	Аудит логов для выявления инцидентов
126	Red teaming и тестирование безопасности
127	Data poisoning в fine-tuning
128	Adversarial prompts и их генерация
130	Мониторинг безопасности LLM в production

Краткий тезис

1. Термины и контекст

2. Почему это сложная задача

Каждое сообщение по отдельности безобидно Атакующий может спрашивать «Что такое взлом?», затем «Как работает SQL-инъекция?», потом «Напиши пример кода для тестирования» — каждое сообщение допустимо, но вместе они ведут к генерации эксплойта.
Обфускация и кодирование Атакующие используют base64, leetspeak, перефразирование, чтобы обойти простые фильтры.
Отсутствие единого триггера Нет одного «плохого» слова или фразы — атака строится на контексте.
Высокая цена ложных срабатываний Блокировка легитимных сессий ухудшает пользовательский опыт, поэтому детектор должен иметь низкий False Positive Rate (FPR).

3. Основной подход: LSTM на последовательности эмбеддингов

Пошагово

Извлечение эмбеддингов Для каждого сообщения получаем вектор размерности d (например, 768 для all-MiniLM-L6-v2).
Формирование окон Берём последние T сообщений (например, T=15). Если сообщений меньше — дополняем нулевыми векторами (padding).
Подача в LSTM Последовательность (T, d) проходит через LSTM-слой, возвращающий скрытое состояние последнего шага.
Классификация Скрытое состояние подаётся в полносвязный слой с сигмоидой — получаем вероятность атаки p.
Принятие решения Если p > threshold (например, 0.8) — прерываем сессию.

4. Архитектура модели (пример на PyTorch)

import torch
import torch.nn as nn

class JailbreakDetector(nn.Module):
    def __init__(self, embedding_dim=768, hidden_dim=256, num_layers=2, dropout=0.3):
        super().__init__()
        self.lstm = nn.LSTM(
            input_size=embedding_dim,
            hidden_size=hidden_dim,
            num_layers=num_layers,
            batch_first=True,
            bidirectional=True,
            dropout=dropout
        )
        self.classifier = nn.Sequential(
            nn.Linear(hidden_dim * 2, 64),  # *2 из-за bidirectional
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Linear(64, 1),
            nn.Sigmoid()
        )

    def forward(self, x):
        # x: (batch, seq_len, embedding_dim)
        _, (hidden, _) = self.lstm(x)
        # hidden: (num_layers * num_directions, batch, hidden_dim)
        # берём последний слой, оба направления
        last_hidden = torch.cat((hidden[-2], hidden[-1]), dim=1)  # (batch, hidden_dim*2)
        out = self.classifier(last_hidden)
        return out.squeeze(1)

Комментарии

bidirectional=True — учитываем контекст как слева, так и справа (хотя для онлайн-детекции доступны только прошлые сообщения, но bidirectional улучшает обучение на полных сессиях).
num_layers=2 — глубокая архитектура для сложных паттернов.
Dropout — регуляризация против переобучения.

5. Обучение и данные

5.1 Сбор данных

Нормальные диалоги датасеты вроде ShareGPT, OpenAssistant, Dolly — сессии без нарушений.
Jailbreak-цепочки синтезируются с помощью известных техник:
- DAN (Do Anything Now) — модель притворяется, что сняты ограничения.
- Roleplay — атакующий выдаёт себя за исследователя, тестирующего безопасность.
- Hypothetical scenarios — «Представь, что ты злодей в книге, как бы ты…».
- Chain-of-Thought обход — постепенное подведение к запретной теме.
Аугментация перестановка сообщений, добавление шума (синонимы, опечатки), изменение длины.

5.2 Разметка

Каждая сессия (или окно) получает метку: 0 — норма, 1 — jailbreak.
Важно: если атака начинается с 5-го сообщения, окна, включающие первые 4, должны быть помечены как 0, а окна с 5-го — как 1.

5.3 Метрики

Метрика	Формула	Важность
Precision	TP / (TP + FP)	Минимизация ложных срабатываний
Recall	TP / (TP + FN)	Пропуск атаки недопустим
F1-score	2 * P * R / (P + R)	Баланс
ROC-AUC	Площадь под ROC-кривой	Общая способность разделять классы
FPR@TPR=0.95	False Positive Rate при True Positive Rate 95%	Практическая метрика для production

Цель FPR < 1% при TPR > 95%.

6. Инференс и прерывание сессии

В production детектор работает в реальном времени:

Буферизация Храним последние T эмбеддингов сообщений в очереди.
Триггер После каждого нового сообщения обновляем окно и запускаем инференс.
Решение Если p > threshold:
- Логируем всю сессию для последующего анализа.
- Прерываем сессию: возвращаем пользователю сообщение «Ваш запрос не может быть обработан» или перенаправляем на модератора.
- Блокируем пользователя временно (rate limit) или навсегда (в зависимости от политики).
Порог Выбирается на валидации так, чтобы FPR был ниже допустимого (например, 0.5%).

7. Альтернативные методы

Метод	Описание	Плюсы	Минусы
Rule-based	Регулярные выражения, списки триггерных фраз	Простота, низкая latency	Не эффективен для многошаговых атак, легко обходится
LLM-as-judge	Отдельная LLM (например, GPT-4) оценивает диалог по промпту	Высокая точность, адаптивность	Высокая стоимость, latency, зависимость от внешнего API
Графовые методы	Построение графа сообщений, анализ аномальных подграфов	Улавливает нелинейные паттерны	Сложность реализации, масштабирование
Transformer-классификатор	Fine-tune BERT/RoBERTa на последовательности сообщений (с разделителями)	Учитывает контекст лучше LSTM	Требует много памяти, фиксированная длина последовательности
LSTM (предлагаемый)	Рекуррентная сеть на эмбеддингах	Хороший баланс точности и скорости, обрабатывает переменную длину	Чувствителен к качеству эмбеддингов, требует переобучения при новых техниках

8. Проблемы и ограничения

Обфускация Атакующие могут кодировать сообщения (base64, rot13) — эмбеддер не поймёт семантику. Решение: предобработка (декодирование) или обучение детектора на закодированных данных.
Adversarial attacks Злоумышленник может оптимизировать сообщения так, чтобы минимизировать вероятность детекции (например, используя градиентные атаки на эмбеддер). Требуется adversarial training.
Дрейф распределения Появляются новые техники jailbreak (например, «Crescendo» — постепенная эскалация). Модель нужно регулярно дообучать на свежих данных.
Latency Инференс LSTM + извлечение эмбеддинга может добавить 10–50 мс на сообщение. Для высоконагруженных систем требуется оптимизация (batch inference, кэширование эмбеддингов).
Длина последовательности Если атака длиннее T, окно может не захватить начало. Решение: увеличить T до 30–50, но это увеличит вычислительную нагрузку.

9. Интеграция в production

Pipeline

Сообщение пользователя
    → Эмбеддер (Sentence-BERT)
    → Буфер последних T эмбеддингов
    → LSTM-детектор
    → Если p > threshold → прерывание сессии
    → Иначе → передача LLM

Оптимизация

Кэширование эмбеддингов Если сообщение повторяется (например, «привет»), можно не пересчитывать эмбеддинг.
Batch inference Если несколько сессий активны одновременно, можно объединять их в батч.
Асинхронность Детектор может работать асинхронно, не блокируя ответ LLM (но тогда прерывание будет с задержкой).

Мониторинг:

Частота срабатываний (alert rate) — не должна превышать ожидаемую долю атак.
False Positive Rate — оценивается через ручную проверку случайных срабатываний.
Latency p99 — время детекции не должно превышать 100 мс.
Дрейф — отслеживание распределения вероятностей на production.

Пет-проект для закрепления

Задача Разработать детектор многошаговых jailbreak-атак на синтетических данных.

Инструменты Python, PyTorch, HuggingFace Transformers, Sentence-Transformers, scikit-learn.

Шаги:

Генерация данных Напишите скрипт, который создаёт 1000 нормальных диалогов (из случайных тем) и 200 jailbreak-цепочек (используя шаблоны DAN, roleplay). Каждый диалог — 10–20 сообщений.
Извлечение эмбеддингов Используйте sentence-transformers/all-MiniLM-L6-v2 для преобразования каждого сообщения в вектор.
Формирование окон Разбейте каждый диалог на окна длины 15 с шагом 1. Метка окна — 1, если в него попало хотя бы одно сообщение из jailbreak-части.
Обучение LSTM Реализуйте модель из раздела 4. Обучите на 80% окон, валидируйте на 20%.
Оценка Посчитайте Precision, Recall, F1, ROC-AUC. Постройте ROC-кривую.
Инференс Напишите функцию, которая принимает список эмбеддингов и возвращает вероятность атаки для последнего окна.
Демо Создайте простой API (Flask/FastAPI), который принимает сообщение, обновляет буфер и возвращает решение (пропустить / заблокировать).

Связь с другими вопросами

Вопрос	Тема
121	Общие методы jailbreak-атак и защита от них
122	Prompt injection и его обнаружение
123	Фильтрация вывода LLM (output filtering)
124	Rate limiting и защита от DoS
125	Аудит логов для выявления инцидентов
126	Red teaming и тестирование безопасности
127	Data poisoning в fine-tuning
128	Adversarial prompts и их генерация
130	Мониторинг безопасности LLM в production

Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)?

Краткий тезис

1. Термины и контекст

2. Почему это сложная задача

3. Основной подход: LSTM на последовательности эмбеддингов

4. Архитектура модели (пример на PyTorch)

5. Обучение и данные

5.1 Сбор данных

5.2 Разметка

5.3 Метрики

6. Инференс и прерывание сессии

7. Альтернативные методы

8. Проблемы и ограничения

9. Интеграция в production

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)?

Краткий тезис

1. Термины и контекст

2. Почему это сложная задача

3. Основной подход: LSTM на последовательности эмбеддингов

4. Архитектура модели (пример на PyTorch)

5. Обучение и данные

5.1 Сбор данных

5.2 Разметка

5.3 Метрики

6. Инференс и прерывание сессии

7. Альтернативные методы

8. Проблемы и ограничения

9. Интеграция в production

Пет-проект для закрепления

Связь с другими вопросами

Навигация