Поиск
- wikiwatermarking
…Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…
- wikiHard watermarking
# Hard watermarking ## Определение Вариант watermarking с большим delta (например, 5.0), обеспечивающий высокую робастность, но заметность. ## Где встречается - [[358. Что…
- wikiBlack-box watermarking
# Black-box watermarking ## Определение Метод встраивания watermark в выходные данные LLM через logprobs, доступные через API, без изменения весов модели…
- wikiSoft watermarking
# Soft watermarking ## Определение Мягкий водяной знак — метод встраивания сигнала в сгенерированный текст с малым изменением вероятностей (например, delta=0.5…
- wikiKirchenbauer watermarking method
# Kirchenbauer watermarking method ## Определение Метод встраивания водяного знака в текст LLM путём разбиения токенов на зелёные и красные списки на…
- wikiKGW
# KGW ## Определение Оригинальный алгоритм watermarking для LLM, основанный на хэше предыдущего токена и разделении токенов на зелёный и красный списки…
- wikiHash function
…Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…
- answerКак работает model watermarking для LLM (идентификация модели-источника)?
…В отличие от обычного [[Вики/watermarking\|watermarking]] (обнаружение AI-текста вообще), [[Вики/watermarking\|model watermarking]] привязывает сигнатуру к конкретной модели…
- wikibackdoor watermarking
# backdoor watermarking ## Определение Метод защиты модели от кражи: в ответы намеренно внедряются уникальные ошибки, служащие водяным знаком для доказательства несанкционированного…
- wikikey extraction
# key extraction ## Определение Попытка восстановить секретный ключ по множеству текстов, например, при атаках на модели или watermarking. ## Где встречается - [[613…
- wikiAaronson
# Aaronson ## Определение Алгоритм watermarking для LLM, использующий Gumbel-max trick для детерминированного выбора токена с учётом водяного знака. ## Где встречается…
- wikisemantic watermark
…Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] ## Навигация…
- wikiGreen ratio
# Green ratio ## Определение Доля токенов, помеченных как «зелёные» в схеме watermarking для LLM. Обычно равна 0.5 для текста без…
- wikibiometric features
…Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] ## Навигация…
- wikiRare Tokens
# Rare Tokens ## Определение Токены с низкой вероятностью в естественном языке, используемые как сигнатуры для встраивания водяных знаков (model watermarking) с…
- wikired list
# red list ## Определение Список токенов, вероятность которых понижается при watermarking LLM; противоположность green list, используется для нанесения невидимых меток на…
- wikiстатистический тест
…Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…
- answerЧто такое watermarking для LLM генераций и как его детектировать?
…Что такое watermarking для LLM генераций и как его детектировать? ## Краткий тезис **[[Вики/watermarking\|Watermarking]]** для [[Вики/LLM\|LLM]] — это…
- wikiSpoofing attack
…Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…
- wikiimitation model
…Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] ## Навигация…
- wikiImperceptibility
…Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…
- wikileakage tracking
…Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] ## Навигация…
- wikiTrimming attack
…Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…
- wikiParaphrasing attack
…Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…
- wikigreen list
…Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…
- wikitruncation
…Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[779…
- answerЧто такое watermarking для LLM генераций и как его детектировать?
…Что такое watermarking для LLM генераций и как его детектировать? ## Краткий тезис **[[Вики/watermarking\|Watermarking]]** для **[[Вики/LLM\|LLM]] ([[Вики…
- wikinoise injection
…Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[683…
- answerКак работает model stealing attack и как защититься?
…Watermarking **[[Вики/watermarking\|Watermarking]]** ([[Вики/watermarking\|водяные знаки]]) — внедрение в ответы модели невидимых для человека, но детектируемых паттернов. Если [[Вики…
- answerКак вы делаете retrieval для изображений с защитой авторских прав (watermarking)?
…Watermarking (водяные знаки) **[[Вики/watermarking\|Водяной знак]] ([[Вики/watermark\|watermark]])** — это цифровая [[Вики/tag\|метка]], встраиваемая в изображение для защиты…
- answerЧто такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься?
…vec = vectorizer.transform([prompt]) return model.predict(vec)[0] == 1 ``` ### 6.3 Watermarking (цифровые водяные знаки) **[[Вики/watermarking\|Watermarking]]** — внедрение…
- wikiстатистическая значимость
…Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[803…
- answerКак работает LLM fingerprinting (идентификация модели по ответам)?
…Связь с watermarking **[[Вики/watermarking\|Watermarking]]** — встраивание скрытого сигнала в текст (например, через выбор маловероятных токенов), чтобы потом доказать, что…
- wikiEfficiency
…Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…
- wikirobustness
…Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…
- wikifalse positive
…Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…
- wikiметаданные
…Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[624…
- wikiData augmentation
…Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[678…
- wikibias
…Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…
- answerКак работает model extraction attack и как защититься?
…words[idx] = random.choice(syn_dict[words[idx]]) return " ".join(words) ``` ### 5.3 Watermarking (встраивание цифровых меток) - Statistical watermark — внесение…
- wikired teaming
…Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[616…
- answerКак работает model stealing attack (экстракция модели через API)?
…Защита строится на **[[Вики/rate limiting\|rate limiting]]**, [[Вики/watermarking\|watermarking]], **[[Вики/perturbation consistency\|perturbation]]** ответов и ограничении доступа к…
- wikiRecall
…Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[625…
- wikiF1
…Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[622…
- wikiPerplexity
…Что такое watermarking для LLM генераций и как его детектировать|358. Что такое watermarking для LLM генераций и как его…
- answerКак работает модели типа Kosmos-2 (grounding объектов на изображении)?
…Как вы делаем retrieval для изображений с защитой авторских прав (watermarking)\|565]] | Как работает Visual RAG (изображения как источник знаний…
- answerКак работает membership inference атака на LLM?
…Что такое watermarking для LLM генераций и как его детектировать\|603]] | Adversarial attacks на LLM (общая концепция атак) | | [[604. Как…
- answerКак работает membership inference атака на LLM?
…Что такое watermarking для LLM генераций и как его детектировать\|358]] | Защита LLM от атак (дифференциальная приватность, фильтрация) | | [[359. Как…
- answerКак защититься от prompt stealing (кража системного промпта)?
…Юридические меры: - Включить в Terms of Service запрет на «reverse engineering» промпта. - Использовать [[Вики/watermarking\|watermarking]] (водяные знаки) в системном…
- answerПочему агенты деградируют на длинных horizon (более 10 шагов)?
…Как вы делаем retrieval для изображений с защитой авторских прав (watermarking)\|565]] | Как тестировать и отлаживать агентов с длинными траекториями…