Поиск

  • wikiwatermarking

    …Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…

  • wikiHard watermarking

    # Hard watermarking ## Определение Вариант watermarking с большим delta (например, 5.0), обеспечивающий высокую робастность, но заметность. ## Где встречается - [[358. Что…

  • wikiBlack-box watermarking

    # Black-box watermarking ## Определение Метод встраивания watermark в выходные данные LLM через logprobs, доступные через API, без изменения весов модели…

  • wikiSoft watermarking

    # Soft watermarking ## Определение Мягкий водяной знак — метод встраивания сигнала в сгенерированный текст с малым изменением вероятностей (например, delta=0.5…

  • wikiKirchenbauer watermarking method

    # Kirchenbauer watermarking method ## Определение Метод встраивания водяного знака в текст LLM путём разбиения токенов на зелёные и красные списки на…

  • wikiKGW

    # KGW ## Определение Оригинальный алгоритм watermarking для LLM, основанный на хэше предыдущего токена и разделении токенов на зелёный и красный списки…

  • wikiHash function

    …Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…

  • answerКак работает model watermarking для LLM (идентификация модели-источника)?

    …В отличие от обычного [[Вики/watermarking\|watermarking]] (обнаружение AI-текста вообще), [[Вики/watermarking\|model watermarking]] привязывает сигнатуру к конкретной модели…

  • wikibackdoor watermarking

    # backdoor watermarking ## Определение Метод защиты модели от кражи: в ответы намеренно внедряются уникальные ошибки, служащие водяным знаком для доказательства несанкционированного…

  • wikikey extraction

    # key extraction ## Определение Попытка восстановить секретный ключ по множеству текстов, например, при атаках на модели или watermarking. ## Где встречается - [[613…

  • wikiAaronson

    # Aaronson ## Определение Алгоритм watermarking для LLM, использующий Gumbel-max trick для детерминированного выбора токена с учётом водяного знака. ## Где встречается…

  • wikisemantic watermark

    …Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] ## Навигация…

  • wikiGreen ratio

    # Green ratio ## Определение Доля токенов, помеченных как «зелёные» в схеме watermarking для LLM. Обычно равна 0.5 для текста без…

  • wikibiometric features

    …Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] ## Навигация…

  • wikiRare Tokens

    # Rare Tokens ## Определение Токены с низкой вероятностью в естественном языке, используемые как сигнатуры для встраивания водяных знаков (model watermarking) с…

  • wikired list

    # red list ## Определение Список токенов, вероятность которых понижается при watermarking LLM; противоположность green list, используется для нанесения невидимых меток на…

  • wikiстатистический тест

    …Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…

  • answerЧто такое watermarking для LLM генераций и как его детектировать?

    …Что такое watermarking для LLM генераций и как его детектировать? ## Краткий тезис **[[Вики/watermarking\|Watermarking]]** для [[Вики/LLM\|LLM]] — это…

  • wikiSpoofing attack

    …Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…

  • wikiimitation model

    …Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] ## Навигация…

  • wikiImperceptibility

    …Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…

  • wikileakage tracking

    …Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] ## Навигация…

  • wikiTrimming attack

    …Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…

  • wikiParaphrasing attack

    …Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…

  • wikigreen list

    …Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…

  • wikitruncation

    …Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[779…

  • answerЧто такое watermarking для LLM генераций и как его детектировать?

    …Что такое watermarking для LLM генераций и как его детектировать? ## Краткий тезис **[[Вики/watermarking\|Watermarking]]** для **[[Вики/LLM\|LLM]] ([[Вики…

  • wikinoise injection

    …Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[683…

  • answerКак работает model stealing attack и как защититься?

    Watermarking **[[Вики/watermarking\|Watermarking]]** ([[Вики/watermarking\|водяные знаки]]) — внедрение в ответы модели невидимых для человека, но детектируемых паттернов. Если [[Вики…

  • answerКак вы делаете retrieval для изображений с защитой авторских прав (watermarking)?

    Watermarking (водяные знаки) **[[Вики/watermarking\|Водяной знак]] ([[Вики/watermark\|watermark]])** — это цифровая [[Вики/tag\|метка]], встраиваемая в изображение для защиты…

  • answerЧто такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься?

    …vec = vectorizer.transform([prompt]) return model.predict(vec)[0] == 1 ``` ### 6.3 Watermarking (цифровые водяные знаки) **[[Вики/watermarking\|Watermarking]]** — внедрение…

  • wikiстатистическая значимость

    …Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[803…

  • answerКак работает LLM fingerprinting (идентификация модели по ответам)?

    …Связь с watermarking **[[Вики/watermarking\|Watermarking]]** — встраивание скрытого сигнала в текст (например, через выбор маловероятных токенов), чтобы потом доказать, что…

  • wikiEfficiency

    …Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…

  • wikirobustness

    …Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…

  • wikifalse positive

    …Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…

  • wikiметаданные

    …Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[624…

  • wikiData augmentation

    …Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[678…

  • wikibias

    …Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…

  • answerКак работает model extraction attack и как защититься?

    …words[idx] = random.choice(syn_dict[words[idx]]) return " ".join(words) ``` ### 5.3 Watermarking (встраивание цифровых меток) - Statistical watermark — внесение…

  • wikired teaming

    …Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[616…

  • answerКак работает model stealing attack (экстракция модели через API)?

    …Защита строится на **[[Вики/rate limiting\|rate limiting]]**, [[Вики/watermarking\|watermarking]], **[[Вики/perturbation consistency\|perturbation]]** ответов и ограничении доступа к…

  • wikiRecall

    …Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[625…

  • wikiF1

    …Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[622…

  • wikiPerplexity

    …Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…

  • answerКак работает модели типа Kosmos-2 (grounding объектов на изображении)?

    …Как вы делаем retrieval для изображений с защитой авторских прав (watermarking)\|565]] | Как работает Visual RAG (изображения как источник знаний…

  • answerКак работает membership inference атака на LLM?

    …Что такое watermarking для LLM генераций и как его детектировать\|603]] | Adversarial attacks на LLM (общая концепция атак) | | [[604. Как…

  • answerКак работает membership inference атака на LLM?

    …Что такое watermarking для LLM генераций и как его детектировать\|358]] | Защита LLM от атак (дифференциальная приватность, фильтрация) | | [[359. Как…

  • answerКак защититься от prompt stealing (кража системного промпта)?

    …Юридические меры: - Включить в Terms of Service запрет на «reverse engineering» промпта. - Использовать [[Вики/watermarking\|watermarking]] (водяные знаки) в системном…

  • answerПочему агенты деградируют на длинных horizon (более 10 шагов)?

    …Как вы делаем retrieval для изображений с защитой авторских прав (watermarking)\|565]] | Как тестировать и отлаживать агентов с длинными траекториями…