Поиск
- answerЧто такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования?
…Что такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования? ## Краткий тезис [[Вики/Safety & Guardrails\|Safety & Guardrails…
- wikiinput rails
# input rails ## Определение Набор правил и проверок, применяемых к входным данным для отклонения опасных запросов (например, в NeMo Guardrails). ## Где…
- wikiColang
# Colang ## Определение Декларативный язык для описания правил guardrails в NeMo Guardrails. ## Где встречается - [[125. Объясните разницу между NeMo Guardrails и…
- wikiSafety & Guardrails
# Safety & Guardrails ## Определение Архитектурный слой, отвечающий за безопасность и ограничения выходных данных LLM, включая runtime guardrails. ## Где встречается - [[800+ вопросов…
- wikiGuardrails AI
# Guardrails AI ## Определение Фреймворки и программные прослойки (например, Guardrails AI, NeMo Guardrails) для валидации и фильтрации входных и выходных данных…
- answerОбъясните разницу между NeMo Guardrails и Garak. Когда что используется?
…NeMo Guardrails: архитектура и сценарии [[Вики/NeMo Guardrails\|NeMo Guardrails]] — это открытая библиотека от NVIDIA для добавления «ограничителей» ([[Вики/Guardrails…
- wikiNeMo Guardrails
# NeMo Guardrails ## Определение Библиотека для создания runtime guardrails, перехватывающих вредоносный ввод/вывод LLM-агентов и защищающих от атак, включая adversarial…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить Guardrails на NeMo
…Цель задачи Научиться разворачивать и настраивать систему [[Вики/NeMo Guardrails\|guardrails]] (ограждений) на основе [[Вики/NeMo Guardrails\|Guardrails]] от NVIDIA…
- wikiruntime
…Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…
- wikiToxicity filter
# Toxicity filter ## Определение Механизм блокировки токсичного контента в выходах LLM, часть guardrails. ## Где встречается - [[102. Настроить Guardrails на NeMo|102…
- wikiCustom actions
# Custom actions ## Определение Пользовательские действия, определяемые в файле actions.py для настройки Guardrails под специфические сценарии. ## Где встречается - [[102. Настроить…
- wikiUnitary/toxic-bert
# Unitary/toxic-bert ## Определение Модель для детекции токсичного контента, используемая в Guardrails на NeMo. ## Где встречается - [[102. Настроить Guardrails на…
- wikiDetoxify
# Detoxify ## Определение Модель для классификации токсичности текста, используется в guardrails для фильтрации контента. ## Где встречается - [[382. Как вы проектируете canary…
- wikioutput filtering
…Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…
- wikiobfuscated code
# obfuscated code ## Определение Техника маскировки вредоносного кода, которую необходимо нормализовать в guardrails для защиты от инъекций. ## Где встречается - [[125. Объясните…
- wikiPrompt-based guardrails
# Prompt-based guardrails ## Определение Правила, заданные на естественном языке, которые ограничивают поведение LLM, например, запрет на раскрытие персональных данных. ## Где…
- wikimoderation rails
…Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…
- wikiOWASP Top 10 for LLM
…Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…
- answerЧто такое Constitutional AI и как оно применяется в производстве?
…Runtime guardrails (NeMo Guardrails) [[Вики/Guardrails AI\|NeMo Guardrails]] — фреймворк от NVIDIA для добавления guardrails в production. Он реализует идеи…
- answerЧто такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?
…Пример кода (Python с библиотекой Guardrails AI): ```python import guardrails as gd rail_spec = """
- answerКак проводить safety case для LLM системы (аналог safety case в авиации)?
…99% ответов признаны безопасными, 0.5% небезопасных (все выявлены до отправки пациенту). #### 4.4 Покрытие guardrails [[Вики/Guardrails AI\|Guardrails…
- wikiRoleplay jailbreak
…Настроить Guardrails на NeMo|102. Настроить Guardrails на NeMo]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikiAzure Content Safety
…Интегрируется с NeMo Guardrails. ## Где встречается - [[125. Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу…
- wikiUnicode homoglyphs
…Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…
- wikicode injection
…Настроить Guardrails на NeMo|102. Настроить Guardrails на NeMo]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- answerЧто такое Agent Loop и какие компоненты входят в production-ready loop?
…Генерация ответа и guardrails Когда [[Вики/GPT-4o\|LLM]] возвращает текстовый ответ, он проходит через [[Вики/NeMo Guardrails\|Guardrails]]. Типы…
- wikiJailbreak
…Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…
- wikiDoS
…Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…
- wikiBase64 encoding
…Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…
- wikitoxic content
…Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…
- answerЧто такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься?
…Инструменты: - [[Вики/NeMo Guardrails\|NeMo Guardrails]] (NVIDIA) — позволяет задавать [[Вики/Rule-based executor\|правила]] на естественном языке. - [[Вики/NeMo Guardrails…
- answerЧто такое эволюция (evolution) в Harness Engineering (component registry, drift detection)?
…Примеры правил: - `guardrails_layer == 0` — [[Вики/Guardrails AI\|guardrails]] всегда должны быть первым слоем (выполняться до инструментов и [[Вики/GPT…
- answerКак вы обрабатываете production incident с LLM (playbook)?
…GitHub Actions, GitLab CI, ArgoCD. - [[Вики/Guardrails AI\|Guardrails]]: NeMo Guardrails, Guardrails AI, NVIDIA Guardrails. --- ## Пет-проект для закрепления [[Вики…
- answerЧто такое AdmissionController в Harness и зачем он нужен?
…Он действует как [[Вики/NeMo Guardrails\|guardrail]] ([[Вики/NeMo Guardrails\|ограничитель]]) для безопасности: проверяет, имеет ли [[Вики/AI agents\|агент…
- answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…Термины и контекст [[Вики/role-play\|Jailbreak]] — это набор промпт-инъекций, целью которых является обход встроенных [[Вики/NeMo Guardrails\|guardrails…
- wikiArchitecture rules
# Architecture rules ## Определение Формальные ограничения, проверяющие, что изменения в коде не нарушают архитектурные правила (например, guardrails всегда должны быть первым…
- wikiPresidio
…Настроить Guardrails на NeMo|102. Настроить Guardrails на NeMo]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikiNeMo
…через Transformer Engine, а также построение диалоговых AI с guardrails. ## Где встречается - [[312. Как работает FP8 quantization на H100 (Transformer…
- wikiMiddleware
…Настроить Guardrails на NeMo|102. Настроить Guardrails на NeMo]] - [[107. Настроить AdmissionController|107. Настроить AdmissionController]] - [[109. Настроить cost tracking для…
- answerКак вы делаете agent robustness к adversarial instructions (jailbreak через агента)?
…Инструменты и фреймворки | Инструмент | Назначение | |-----------|------------| | [[Вики/Guardrails AI\|NeMo Guardrails]] | Правила поведения, фильтры входа/выхода, тестирование с red teaming | | [[Вики…
- wikiLLM-firewall
…Примеры включают NeMo Guardrails. ## Где встречается - [[883. Как защитить RAG от poisoning (вредоносные документы в базе знаний)|883. Как защитить…
- answerЧто такое adversarial prompt detection для реального времени (runtime)?
…Инструменты и фреймворки | Инструмент | Тип | Особенности | |------------|-----|-------------| | [[Вики/NeMo Guardrails\|NeMo Guardrails]] (NVIDIA) | Фреймворк | Включает детекторы, диалоговые политики, интеграцию с RAG…
- answerКак работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?
…3. **Blue team** добавляет правило в NeMo Guardrails: если запрос содержит слова «инвестиция», «совет», «срочно» и эмодзи, то ответ должен…
- wikiblue team
# blue team ## Определение Команда, отвечающая за защиту LLM-модели и разработку защитных механизмов (фильтры, guardrails, fine-tuning) на основе отчётов…
- answerЧто такое agent safety constraints (ограничения на действия агента)?
…Отличие от смежных понятий | Понятие | Описание | | --- | --- | | [[Вики/safety\|Safety constraints]] | Конкретные правила для действий агента (данный вопрос). | | [[Вики/NeMo Guardrails…
- wikiGarak
…Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…
- answerКак происходит PII leakage через LLM и как защититься?
…return anonymizer.anonymize(text=generated_text, analyzer_results=results).text return generated_text ``` 7.2 Prompt-based guardrails Используем «guardrails…
- answerЧто такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?
…7. [[Вики/NeMo Guardrails\|Guardrails]] (например, [[Вики/NeMo Guardrails\|Nvidia NeMo Guardrails]]): внешние модели, которые перехватывают ответ до выдачи. Ни…
- answerЧто такое model cards и system cards и как их составлять?
…модель, RAG, агенты, [[Вики/NeMo Guardrails\|guardrails]], фильтры. - Safety mitigations (меры безопасности) — как система защищена от misuse (content moderation, rate…
- wikiPII
…Настроить Guardrails на NeMo|102. Настроить Guardrails на NeMo]] - [[142. Реализовать cost-aware caching|142. Реализовать cost-aware caching]] ## Навигация…