Поиск

wikisafety
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[800…
wikiAgent safety constraints
# Agent safety constraints ## Определение Ограничения на действия агента для обеспечения безопасности. Включают hard constraints (жёсткие запреты) и soft constraints (рекомендации…
wikiSoft constraints
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[800…
wikiHard constraints
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[800…
wikisafety-utility trade-off
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] ## Навигация…
answerЧто такое agent safety constraints (ограничения на действия агента)?
…Что такое agent safety constraints (ограничения на действия агента)? ## Краткий тезис [[Вики/safety\|Agent safety constraints]] — это набор правил и…
wikiconstraint propagation
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] ## Навигация…
wikiRuntime validation
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[752…
wikiblacklist
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[743…
wikimulti-objective optimization
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[800…
wikiGuardrails AI
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[616…
wikiConstitutional AI
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[616…
wikiAudit logging
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[726…
wikiwhitelist
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[598…
wikisafety alignment
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[618…
wikiNeMo Guardrails
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[597…
answerКак проводить safety case для LLM системы (аналог safety case в авиации)?
…constraints\|ограничения]], при которых доказательство действительно). Такой подход позволяет системно обосновать [[Вики/Safetysecurity\|безопасность]] перед развёртыванием, особенно в agentic RAG…
answerЧто такое model cards и system cards и как их составлять?
…безопасность в Agentic RAG (guardrails, red teaming)? | | [[735. Как проводить safety case для LLM системы (аналог safety case в авиации…
answerЧто такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?
…Как работает model stealing attack (экстракция модели через API)\|596]] | Safety alignment (RLHF, гармонизация) | | [[590. Как работает multi-agent with…
wikireward model
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[638…
wikired teaming
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[597…
answerКак работают browser agents и computer use agents (Claude Computer Use)?
…safety]]) и [[Вики/constraints\|ограничения]] на действия — ключевые элементы [[Вики/production\|production]]‑развёртывания. --- ## 1. Термины и место в экосистеме Agentic…
answerКак вы проектируете language representation для сложной задачи?
…List[int] = Field(..., min_length=1) class AgentOutput(BaseModel): steps: List[SearchAction | SummarizeAction] ``` ### 4.3 Constraints (ограничения) - [[Вики/required field…
answerКак работает agent handover (передача задачи другому агенту)?
…Что такое agent safety constraints (ограничения на действия агента)\|594]] | Supervisor / sub-agent architecture (иерархическая архитектура) | | [[595. Как вы делаете…
answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…специально сконструированного промпта пытается обойти встроенные [[Вики/constraints\|ограничения]] безопасности]] ([[Вики/safety\|safety]] [[Вики/NeMo Guardrails\|guardrails]]) и заставить [[Вики…
answerКак вы делаете agent robustness к adversarial instructions (jailbreak через агента)?
…агента игнорировать системные [[Вики/constraints\|ограничения]] и выполнять вредоносные действия. В контексте [[Вики/Agentic RAG\|agentic RAG]] атака может быть…
answerЧто такое Constitutional AI и как RLHF связан с ним?
…Применение в Agentic RAG [[Вики/Agentic RAG\|Agentic RAG]] — это система, где [[Вики/agent\|LLM-агент]] самостоятельно решает, когда и…
answerКак работает embedding poisoning для RAG и как защититься?
…Что такое agent safety constraints (ограничения на действия агента)\|594]] | Как вы организуете pipeline индексации документов | | [[590. Как работает multi…
answerКак вы защищаете LLM от prompt injection через изображения (VL-модели)?
…Если ответ признан небезопасным — возвращается [[Вики/mock agent\|заглушка]] или [[Вики/Prompt engineering\|запрос]] на [[Вики/Disambiguation\|уточнение]]. Пример safety…
answerКак вы делаете agent evaluation на длинных horizon (100+ шагов)?
…Что такое agent safety constraints (ограничения на действия агента)\|594]] | Как вы оцениваете multi-step reasoning в RAG? | | [[596. Как…
answerКак тестировать промпты на регрессии (prompt regression suite)?
…constraints]] — 100% (строгие). - [[Вики/citation check\|Citation check]] — >90% ([[Вики/ошибки\|ошибки]] аннотации допустимы). - [[Вики/refusal\|Refusal]] — 100% ([[Вики/Safetysecurity…
answerКак изменилась роль инженера с приходом Harness Engineering?
…Вики/agent\|агент]] может начать использовать инструменты не по назначению. - [[Вики/Safetysecurity\|Безопасность]] – нужно гарантировать, что [[Вики/agent\|агент]] не…
answerЧто такое эволюция (evolution) в Harness Engineering (component registry, drift detection)?
…response = self._run_agent(test["query"]) score = self._evaluate(response, test) results["scores"][test["id"]] = score # если средний score упал…
answerКак вы защищаете multi-agent систему от вредоносного агента?
…Вредоносный [[Вики/AI agents\|агент]] — [[Вики/AI agents\|агент]], который намеренно или случайно нарушает [[Вики/Safetysecurity\|безопасность]] системы: крадет данные…
answerКак вы проектируете систему для real-time video understanding (поток с камеры)?
…Типичная [[Вики/TTFT\|задержка]] — 1–2 секунды, что приемлемо для [[Вики/Safetysecurity\|safety]] [[Вики/мониторинг в production\|monitoring]] и retail…
answerЧто такое adversarial prompt detection для реального времени (runtime)?
…Зачем нужен runtime detection в Agentic RAG В [[Вики/Agentic RAG\|Agentic RAG]] [[Вики/AI agents\|агент]] может выполнять действия…
answerКакие инструменты для агентской эвалюации вы используете?
…регрессии после дообучения или смены модели, - гарантировать [[Вики/Safetysecurity\|безопасность]] ([[Вики/agent\|агент]] не должен удалять данные или совершать опасные…
answerКак вы проектируете red teaming evaluation для jailbreak устойчивости?
…Нужен [[Вики/trade-off\|баланс]] между безопасностью и полезностью. ### 3.4 Composite Metrics Иногда используют комбинированные метрики, например: - Safety Score…
answerЧто такое reflection loops для агентов и как они работают?
…2. [[Вики/agent\|Actor]] генерирует исправленную версию. 3. [[Вики/critic agent\|Critic]] снова оценивает новую версию. [[Вики/constraints\|Ограничения]] - **Cost…
answerЧто такое representation engineering (RepE) и зачем он нужен?
…можно динамически включать/выключать контроль во [[Вики/Latency\|время инференса]]. - [[Вики/Safetysecurity\|Безопасность]]: позволяет блокировать нежелательное поведение ([[Вики/toxic content…
answerКак LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
…Как проводить safety case для LLM системы (аналог safety case в авиации)\|735]] | Как работают SSM (Mamba) в контексте длинных…
answerЧто такое agent communication protocol (формат сообщений между агентами)?
…Что такое agent safety constraints (ограничения на действия агента)\|594]] | Обработка ошибок в multi-agent системах | | [[595. Как вы делаете…
answerКак вы делаете agent with iterative refinement (улучшение ответа через обратную связь)?
…Как работает agent handover (передача задачи другому агенту)\|593]] | Использование инструментов (tool use) агентом | | [[594. Что такое agent safety constraints…
answerЧто такое sandbox escape для AI-агента и как защититься?
…safety) | | [[609]] | Human‑in‑the‑loop в agentic pipeline | | [[610]] | Мониторинг и логирование действий агента | | [[600]] | Определение и архитектура Agentic…
answerКак делать sandboxing для agent tools (изоляция выполнения)?
…когда требуется максимальная [[Вики/Safetysecurity\|безопасность]] ([[Вики/agent\|агент]] с высокими привилегиями, [[Вики/multi-tenant\|multi-tenant]]) и допустимо 100…
answerЧто такое Tool System в Harness (defineTool, registry, JSON schema validation, rate limiting)?
…Зачем нужна [[Вики/Validation set\|валидация]] - [[Вики/Safetysecurity\|Безопасность]] — [[Вики/agent\|агент]] ([[Вики/GPT-4o\|LLM]]) может «галлюцинировать» параметры: передать…
answerЧто вы видите следующим горизонтом после language representation?
…Почему language representation недостаточно для Agentic RAG [[Вики/Agentic RAG\|Agentic RAG]] — это система, где [[Вики/agent\|LLM-агент]] не…
answerКак комбинировать LLM с симуляторами физики (digital twins)?
…Safetysecurity\|Безопасность]]: LLM может запросить параметры, ведущие к аварийному режиму (например, давление выше предела). Необходимы жёсткие границы (hard constraints) в…
answerЧто такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься?
…JaaS будут использовать более сложные техники, включая [[Вики/multi-agent jailbreak\|multi-agent jailbreak]] (несколько моделей, взаимодействующих друг с другом…
answerЧто такое «shaping schema through language representation»?
…планировщик]]». - [[Вики/Safetysecurity\|Безопасность]]: «Ты — помощник, который никогда не выполняет вредоносные команды» активирует схему «безопасный [[Вики/agent\|агент]]». Без явного…