Поиск

  • answerЧто такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования?

    …Что такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования? ## Краткий тезис [[Вики/Safety & Guardrails\|Safety & Guardrails

  • wikiinput rails

    # input rails ## Определение Набор правил и проверок, применяемых к входным данным для отклонения опасных запросов (например, в NeMo Guardrails). ## Где…

  • wikiColang

    # Colang ## Определение Декларативный язык для описания правил guardrails в NeMo Guardrails. ## Где встречается - [[125. Объясните разницу между NeMo Guardrails и…

  • wikiSafety & Guardrails

    # Safety & Guardrails ## Определение Архитектурный слой, отвечающий за безопасность и ограничения выходных данных LLM, включая runtime guardrails. ## Где встречается - [[800+ вопросов…

  • wikiGuardrails AI

    # Guardrails AI ## Определение Фреймворки и программные прослойки (например, Guardrails AI, NeMo Guardrails) для валидации и фильтрации входных и выходных данных…

  • answerОбъясните разницу между NeMo Guardrails и Garak. Когда что используется?

    …NeMo Guardrails: архитектура и сценарии [[Вики/NeMo Guardrails\|NeMo Guardrails]] — это открытая библиотека от NVIDIA для добавления «ограничителей» ([[Вики/Guardrails

  • wikiNeMo Guardrails

    # NeMo Guardrails ## Определение Библиотека для создания runtime guardrails, перехватывающих вредоносный ввод/вывод LLM-агентов и защищающих от атак, включая adversarial…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить Guardrails на NeMo

    …Цель задачи Научиться разворачивать и настраивать систему [[Вики/NeMo Guardrails\|guardrails]] (ограждений) на основе [[Вики/NeMo Guardrails\|Guardrails]] от NVIDIA…

  • wikiruntime

    …Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…

  • wikiToxicity filter

    # Toxicity filter ## Определение Механизм блокировки токсичного контента в выходах LLM, часть guardrails. ## Где встречается - [[102. Настроить Guardrails на NeMo|102…

  • wikiCustom actions

    # Custom actions ## Определение Пользовательские действия, определяемые в файле actions.py для настройки Guardrails под специфические сценарии. ## Где встречается - [[102. Настроить…

  • wikiUnitary/toxic-bert

    # Unitary/toxic-bert ## Определение Модель для детекции токсичного контента, используемая в Guardrails на NeMo. ## Где встречается - [[102. Настроить Guardrails на…

  • wikiDetoxify

    # Detoxify ## Определение Модель для классификации токсичности текста, используется в guardrails для фильтрации контента. ## Где встречается - [[382. Как вы проектируете canary…

  • wikioutput filtering

    …Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…

  • wikiobfuscated code

    # obfuscated code ## Определение Техника маскировки вредоносного кода, которую необходимо нормализовать в guardrails для защиты от инъекций. ## Где встречается - [[125. Объясните…

  • wikiPrompt-based guardrails

    # Prompt-based guardrails ## Определение Правила, заданные на естественном языке, которые ограничивают поведение LLM, например, запрет на раскрытие персональных данных. ## Где…

  • wikimoderation rails

    …Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…

  • wikiOWASP Top 10 for LLM

    …Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…

  • answerЧто такое Constitutional AI и как оно применяется в производстве?

    …Runtime guardrails (NeMo Guardrails) [[Вики/Guardrails AI\|NeMo Guardrails]] — фреймворк от NVIDIA для добавления guardrails в production. Он реализует идеи…

  • answerЧто такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?

    …Пример кода (Python с библиотекой Guardrails AI): ```python import guardrails as gd rail_spec = """

  • answerКак проводить safety case для LLM системы (аналог safety case в авиации)?

    …99% ответов признаны безопасными, 0.5% небезопасных (все выявлены до отправки пациенту). #### 4.4 Покрытие guardrails [[Вики/Guardrails AI\|Guardrails

  • wikiRoleplay jailbreak

    …Настроить Guardrails на NeMo|102. Настроить Guardrails на NeMo]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiAzure Content Safety

    …Интегрируется с NeMo Guardrails. ## Где встречается - [[125. Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу…

  • wikiUnicode homoglyphs

    …Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…

  • wikicode injection

    …Настроить Guardrails на NeMo|102. Настроить Guardrails на NeMo]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • answerЧто такое Agent Loop и какие компоненты входят в production-ready loop?

    …Генерация ответа и guardrails Когда [[Вики/GPT-4o\|LLM]] возвращает текстовый ответ, он проходит через [[Вики/NeMo Guardrails\|Guardrails]]. Типы…

  • wikiJailbreak

    …Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…

  • wikiDoS

    …Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…

  • wikiBase64 encoding

    …Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…

  • wikitoxic content

    …Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…

  • answerЧто такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься?

    …Инструменты: - [[Вики/NeMo Guardrails\|NeMo Guardrails]] (NVIDIA) — позволяет задавать [[Вики/Rule-based executor\|правила]] на естественном языке. - [[Вики/NeMo Guardrails

  • answerЧто такое эволюция (evolution) в Harness Engineering (component registry, drift detection)?

    …Примеры правил: - `guardrails_layer == 0` — [[Вики/Guardrails AI\|guardrails]] всегда должны быть первым слоем (выполняться до инструментов и [[Вики/GPT…

  • answerКак вы обрабатываете production incident с LLM (playbook)?

    …GitHub Actions, GitLab CI, ArgoCD. - [[Вики/Guardrails AI\|Guardrails]]: NeMo Guardrails, Guardrails AI, NVIDIA Guardrails. --- ## Пет-проект для закрепления [[Вики…

  • answerЧто такое AdmissionController в Harness и зачем он нужен?

    …Он действует как [[Вики/NeMo Guardrails\|guardrail]] ([[Вики/NeMo Guardrails\|ограничитель]]) для безопасности: проверяет, имеет ли [[Вики/AI agents\|агент…

  • answerЧто такое adversarial fine-tuning для защиты от jailbreak?

    …Термины и контекст [[Вики/role-play\|Jailbreak]] — это набор промпт-инъекций, целью которых является обход встроенных [[Вики/NeMo Guardrails\|guardrails

  • wikiArchitecture rules

    # Architecture rules ## Определение Формальные ограничения, проверяющие, что изменения в коде не нарушают архитектурные правила (например, guardrails всегда должны быть первым…

  • wikiPresidio

    …Настроить Guardrails на NeMo|102. Настроить Guardrails на NeMo]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiNeMo

    …через Transformer Engine, а также построение диалоговых AI с guardrails. ## Где встречается - [[312. Как работает FP8 quantization на H100 (Transformer…

  • wikiMiddleware

    …Настроить Guardrails на NeMo|102. Настроить Guardrails на NeMo]] - [[107. Настроить AdmissionController|107. Настроить AdmissionController]] - [[109. Настроить cost tracking для…

  • answerКак вы делаете agent robustness к adversarial instructions (jailbreak через агента)?

    …Инструменты и фреймворки | Инструмент | Назначение | |-----------|------------| | [[Вики/Guardrails AI\|NeMo Guardrails]] | Правила поведения, фильтры входа/выхода, тестирование с red teaming | | [[Вики…

  • wikiLLM-firewall

    …Примеры включают NeMo Guardrails. ## Где встречается - [[883. Как защитить RAG от poisoning (вредоносные документы в базе знаний)|883. Как защитить…

  • answerЧто такое adversarial prompt detection для реального времени (runtime)?

    …Инструменты и фреймворки | Инструмент | Тип | Особенности | |------------|-----|-------------| | [[Вики/NeMo Guardrails\|NeMo Guardrails]] (NVIDIA) | Фреймворк | Включает детекторы, диалоговые политики, интеграцию с RAG…

  • answerКак работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?

    …3. **Blue team** добавляет правило в NeMo Guardrails: если запрос содержит слова «инвестиция», «совет», «срочно» и эмодзи, то ответ должен…

  • wikiblue team

    # blue team ## Определение Команда, отвечающая за защиту LLM-модели и разработку защитных механизмов (фильтры, guardrails, fine-tuning) на основе отчётов…

  • answerЧто такое agent safety constraints (ограничения на действия агента)?

    …Отличие от смежных понятий | Понятие | Описание | | --- | --- | | [[Вики/safety\|Safety constraints]] | Конкретные правила для действий агента (данный вопрос). | | [[Вики/NeMo Guardrails

  • wikiGarak

    …Объясните разницу между NeMo Guardrails и Garak. Когда что используется|125. Объясните разницу между NeMo Guardrails и Garak. Когда что…

  • answerКак происходит PII leakage через LLM и как защититься?

    …return anonymizer.anonymize(text=generated_text, analyzer_results=results).text return generated_text ``` 7.2 Prompt-based guardrails Используем «guardrails

  • answerЧто такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?

    …7. [[Вики/NeMo Guardrails\|Guardrails]] (например, [[Вики/NeMo Guardrails\|Nvidia NeMo Guardrails]]): внешние модели, которые перехватывают ответ до выдачи. Ни…

  • answerЧто такое model cards и system cards и как их составлять?

    …модель, RAG, агенты, [[Вики/NeMo Guardrails\|guardrails]], фильтры. - Safety mitigations (меры безопасности) — как система защищена от misuse (content moderation, rate…

  • wikiPII

    …Настроить Guardrails на NeMo|102. Настроить Guardrails на NeMo]] - [[142. Реализовать cost-aware caching|142. Реализовать cost-aware caching]] ## Навигация…