Поиск

  • wikisafety

    …Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[800…

  • wikisafety-utility trade-off

    …Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] ## Навигация…

  • wikisafety filter

    # safety filter ## Определение Компонент, выполняющий вторую проверку ответа модели на наличие вредоносного контента, часто используется для защиты от prompt injection…

  • wikiSafety & Guardrails

    # Safety & Guardrails ## Определение Архитектурный слой, отвечающий за безопасность и ограничения выходных данных LLM, включая runtime guardrails. ## Где встречается - [[800+ вопросов…

  • wikisafety case

    # safety case ## Определение Аргументированное доказательство безопасности системы для конкретного домена, используемое для обоснования её надёжности (аналог safety case в авиации…

  • wikithread safety

    # thread safety ## Определение Свойство, гарантирующее корректную работу при многопоточном доступе к разделяемым ресурсам, таким как mmap, без состояния гонки или…

  • wikisafety valves

    # safety valves ## Определение Множественные механизмы безопасности, добавляемые в production loop для контроля выполнения и предотвращения неконтролируемого поведения. ## Где встречается - [[800…

  • wikiSafetyBench

    # SafetyBench ## Определение Бенчмарк для оценки безопасности LLM. ## Где встречается - [[360. Что такое adversarial fine-tuning для защиты от jailbreak|360…

  • wikiAgent safety constraints

    # Agent safety constraints ## Определение Ограничения на действия агента для обеспечения безопасности. Включают hard constraints (жёсткие запреты) и soft constraints (рекомендации…

  • wikipsychological safety

    # psychological safety ## Определение Условие, при котором члены команды не боятся сообщать об ошибках; измеряется опросами и является основой blameless postmortem…

  • wikiAction safety rate

    # Action safety rate ## Определение Доля безопасных действий агента. ## Где встречается - [[499. Как вы оцениваете alignment модели с человеческими ценностями без…

  • wikisafety benchmarks

    # safety benchmarks ## Определение Стандартизированные тесты (например, TruthfulQA, BBQ) для измерения безопасности и непредвзятости модели. ## Где встречается - [[330. Что такое RLAIF…

  • wikiSafety Valve

    # Safety Valve ## Определение Механизм аварийной остановки цикла агента при превышении лимитов шагов, времени или стоимости. ## Где встречается - [[744. Что такое…

  • wikiSafety fine-tuning

    # Safety fine-tuning ## Определение Дообучение модели на парах (запрос, безопасный ответ) для улучшения её безопасности, например, для предотвращения утечки PII…

  • wikiSoft constraints

    …Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[800…

  • answerКак проводить safety case для LLM системы (аналог safety case в авиации)?

    …Как проводить safety case для LLM системы (аналог safety case в авиации)? ## Краткий тезис [[Вики/safety case\|Safety case]] — это…

  • wikiHard constraints

    …Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[800…

  • wikiresponse safety

    # response safety ## Определение Метрика, оценивающая долю ответов LLM, не содержащих вредоносный контент (инъекции, личные данные, опасные инструкции). Критична для развёртывания…

  • wikiAzure Content Safety

    # Azure Content Safety ## Определение Облачный сервис модерации контента от Microsoft Azure для фильтрации токсичного и небезопасного контента. Интегрируется с NeMo…

  • wikiSafety/security

    # Safety/security ## Определение Категория тестов, включающая запросы на вредоносные темы и попытки инжекции, а также более широкая область, охватывающая robustness…

  • answerЧто такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования?

    …Что такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования? ## Краткий тезис [[Вики/Safety & Guardrails\|Safety & Guardrails…

  • answerЧто такое agent safety constraints (ограничения на действия агента)?

    …Что такое agent safety constraints (ограничения на действия агента)? ## Краткий тезис [[Вики/safety\|Agent safety constraints]] — это набор правил и…

  • wikiconstraint propagation

    …Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] ## Навигация…

  • wikisafety alignment

    …Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[618…

  • wikiRuntime validation

    …Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[752…

  • wikiConstitutional AI

    …Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[616…

  • answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?

    …Типичные ценности: - **[[Вики/safety\|Safety]]** — [[Вики/Safetysecurity\|безопасность]] ([[Вики/refusal\|отказ]] от вредных советов); - [[Вики/Helpfulness Harmlessness\|Helpfulness]] — [[Вики/Helpfulness…

  • wikiNeMo Guardrails

    …Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[597…

  • wikiblacklist

    …Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[743…

  • wikimulti-objective optimization

    …Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[800…

  • answerЧто такое Agent Loop и какие компоненты входят в production-ready loop?

    …state = await state_manager.get_state(session_id) safety = SafetyValve(max_steps=5, max_duration=20.0) while safety.should…

  • wikiGuardrails AI

    …Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[616…

  • wikiconstitutional check

    # constitutional check ## Определение Проверка на безопасность и соответствие конституционным ограничениям. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…

  • wikiSystem cards

    # System cards ## Определение Документация для AI-системы, включающая архитектуру, safety mitigations и end-to-end метрики, аналогичная model cards. ## Где…

  • answerЧто такое model cards и system cards и как их составлять?

    …Как проводить safety case для LLM системы (аналог safety case в авиации)\|735]] | Как проводить A/B тестирование AI-агентов…

  • answerКак вы защищаете LLM от prompt injection через изображения (VL-модели)?

    …взять чистые изображения, наложить на них текст с инструкциями (например, «Ignore [[Вики/safety\|safety]] [[Вики/rules\|rules]]»). 2. Для каждого…

  • wikimoderation rails

    # moderation rails ## Определение Механизмы фильтрации ввода и вывода LLM с помощью внешних сервисов (например, Azure Content Safety) для предотвращения небезопасного…

  • wikiwhitelist

    …Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[598…

  • wikiAudit logging

    …Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[726…

  • answerЧто такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?

    …taxonomy\|Jailbreak taxonomy]] — это классификация методов обхода ограничений ([[Вики/Safetysecurity\|safety]] [[Вики/NeMo Guardrails\|guardrails]]) в больших языковых моделях. Четыре…

  • answerКак вы проверяете, что fine-tuned модель не сломала базовые способности?

    …кастомные задачи (которые улучшали), базовые знания ([[Вики/MMLU\|MMLU]], [[Вики/HellaSwag\|HellaSwag]]) и safety/alignment. Запускаем его на исходной модели…

  • answerЧто такое adversarial fine-tuning для защиты от jailbreak?

    …тестирование на атаках, не использовавшихся при fine-tuning (например, новые шаблоны). - [[Вики/safety benchmarks\|Safety benchmarks]]: AdvBench, HarmBench, SafetyBench — стандартные…

  • answerЧто такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?

    …Такая автономность требует особенно надёжной обвязки: - [[Вики/Safetysecurity\|Безопасность]]: агент может случайно выполнить опасное действие (удалить файл, отправить письмо). Guardrails…

  • answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?

    …Как вы оцениваете alignment модели с человеческими ценностями без gold standard? ## Краткий тезис [[Вики/Evaluation\|Оценка]] [[Вики/safety alignment\|alignment…

  • answerКак вы проектируете Harness для mission-critical приложения? Приведите пример с агентом для банковских переводов.

    …Для агента банковских переводов [[Вики/Harness-engineering\|Harness]] включает многослойную архитектуру: [[Вики/Safetysecurity\|safety]] [[Вики/NeMo Guardrails\|guardrails]], admission [[Вики…

  • answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?

    …Преимущества единой архитектуры Chameleon - Естественное [[Вики/safety alignment\|выравнивание]] — [[Вики/model\|модель]] не нуждается в специальных модулях слияния; [[Вики/safety

  • answerКак вы проектируете red teaming evaluation для jailbreak устойчивости?

    …объективно сравнить [[Вики/Safetysecurity\|безопасность]] разных [[Вики/GPT-4o\|LLM]] (например, [[Вики/Llama\|LLaMA]] vs [[Вики/Mistral\|Mistral]] vs [[Вики…

  • answerЧто такое Constitutional AI и как оно применяется в производстве?

    …flows: - check_safety - check_factual_consistency config: safety_model: "meta-llama/Llama-Guard-3-8B" constitution: "constitution.yaml" ``` Преимущества runtime…

  • wikiwhite-box jailbreak

    # white-box jailbreak ## Определение Атака с полным доступом к модели (веса, градиенты), направленная на обход safety alignment. Примеры: HotFlip, FGSM…

  • answerКак вы деплоите policy (RLHF модель) в production с online feedback loop?

    …Важно настроить [[Вики/мониторинг\|мониторинг]] не только качества ответов, но и безопасности, [[Вики/Latency\|latency]] и [[Вики/safety alignment\|alignment…