Поиск

wikisafety
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[800…
wikisafety-utility trade-off
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] ## Навигация…
wikisafety filter
# safety filter ## Определение Компонент, выполняющий вторую проверку ответа модели на наличие вредоносного контента, часто используется для защиты от prompt injection…
wikiSafety & Guardrails
# Safety & Guardrails ## Определение Архитектурный слой, отвечающий за безопасность и ограничения выходных данных LLM, включая runtime guardrails. ## Где встречается - [[800+ вопросов…
wikisafety case
# safety case ## Определение Аргументированное доказательство безопасности системы для конкретного домена, используемое для обоснования её надёжности (аналог safety case в авиации…
wikithread safety
# thread safety ## Определение Свойство, гарантирующее корректную работу при многопоточном доступе к разделяемым ресурсам, таким как mmap, без состояния гонки или…
wikisafety valves
# safety valves ## Определение Множественные механизмы безопасности, добавляемые в production loop для контроля выполнения и предотвращения неконтролируемого поведения. ## Где встречается - [[800…
wikiSafetyBench
# SafetyBench ## Определение Бенчмарк для оценки безопасности LLM. ## Где встречается - [[360. Что такое adversarial fine-tuning для защиты от jailbreak|360…
wikiAgent safety constraints
# Agent safety constraints ## Определение Ограничения на действия агента для обеспечения безопасности. Включают hard constraints (жёсткие запреты) и soft constraints (рекомендации…
wikipsychological safety
# psychological safety ## Определение Условие, при котором члены команды не боятся сообщать об ошибках; измеряется опросами и является основой blameless postmortem…
wikiAction safety rate
# Action safety rate ## Определение Доля безопасных действий агента. ## Где встречается - [[499. Как вы оцениваете alignment модели с человеческими ценностями без…
wikisafety benchmarks
# safety benchmarks ## Определение Стандартизированные тесты (например, TruthfulQA, BBQ) для измерения безопасности и непредвзятости модели. ## Где встречается - [[330. Что такое RLAIF…
wikiSafety Valve
# Safety Valve ## Определение Механизм аварийной остановки цикла агента при превышении лимитов шагов, времени или стоимости. ## Где встречается - [[744. Что такое…
wikiSafety fine-tuning
# Safety fine-tuning ## Определение Дообучение модели на парах (запрос, безопасный ответ) для улучшения её безопасности, например, для предотвращения утечки PII…
wikiSoft constraints
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[800…
answerКак проводить safety case для LLM системы (аналог safety case в авиации)?
…Как проводить safety case для LLM системы (аналог safety case в авиации)? ## Краткий тезис [[Вики/safety case\|Safety case]] — это…
wikiHard constraints
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[800…
wikiresponse safety
# response safety ## Определение Метрика, оценивающая долю ответов LLM, не содержащих вредоносный контент (инъекции, личные данные, опасные инструкции). Критична для развёртывания…
wikiAzure Content Safety
# Azure Content Safety ## Определение Облачный сервис модерации контента от Microsoft Azure для фильтрации токсичного и небезопасного контента. Интегрируется с NeMo…
wikiSafety/security
# Safety/security ## Определение Категория тестов, включающая запросы на вредоносные темы и попытки инжекции, а также более широкая область, охватывающая robustness…
answerЧто такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования?
…Что такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования? ## Краткий тезис [[Вики/Safety & Guardrails\|Safety & Guardrails…
answerЧто такое agent safety constraints (ограничения на действия агента)?
…Что такое agent safety constraints (ограничения на действия агента)? ## Краткий тезис [[Вики/safety\|Agent safety constraints]] — это набор правил и…
wikiconstraint propagation
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] ## Навигация…
wikisafety alignment
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[618…
wikiRuntime validation
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[752…
wikiConstitutional AI
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[616…
answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?
…Типичные ценности: - **[[Вики/safety\|Safety]]** — [[Вики/Safetysecurity\|безопасность]] ([[Вики/refusal\|отказ]] от вредных советов); - [[Вики/Helpfulness Harmlessness\|Helpfulness]] — [[Вики/Helpfulness…
wikiNeMo Guardrails
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[597…
wikiblacklist
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[743…
wikimulti-objective optimization
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[800…
answerЧто такое Agent Loop и какие компоненты входят в production-ready loop?
…state = await state_manager.get_state(session_id) safety = SafetyValve(max_steps=5, max_duration=20.0) while safety.should…
wikiGuardrails AI
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[616…
wikiconstitutional check
# constitutional check ## Определение Проверка на безопасность и соответствие конституционным ограничениям. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…
wikiSystem cards
# System cards ## Определение Документация для AI-системы, включающая архитектуру, safety mitigations и end-to-end метрики, аналогичная model cards. ## Где…
answerЧто такое model cards и system cards и как их составлять?
…Как проводить safety case для LLM системы (аналог safety case в авиации)\|735]] | Как проводить A/B тестирование AI-агентов…
answerКак вы защищаете LLM от prompt injection через изображения (VL-модели)?
…взять чистые изображения, наложить на них текст с инструкциями (например, «Ignore [[Вики/safety\|safety]] [[Вики/rules\|rules]]»). 2. Для каждого…
wikimoderation rails
# moderation rails ## Определение Механизмы фильтрации ввода и вывода LLM с помощью внешних сервисов (например, Azure Content Safety) для предотвращения небезопасного…
wikiwhitelist
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[598…
wikiAudit logging
…Что такое agent safety constraints (ограничения на действия агента)|594. Что такое agent safety constraints (ограничения на действия агента)]] - [[726…
answerЧто такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?
…taxonomy\|Jailbreak taxonomy]] — это классификация методов обхода ограничений ([[Вики/Safetysecurity\|safety]] [[Вики/NeMo Guardrails\|guardrails]]) в больших языковых моделях. Четыре…
answerКак вы проверяете, что fine-tuned модель не сломала базовые способности?
…кастомные задачи (которые улучшали), базовые знания ([[Вики/MMLU\|MMLU]], [[Вики/HellaSwag\|HellaSwag]]) и safety/alignment. Запускаем его на исходной модели…
answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…тестирование на атаках, не использовавшихся при fine-tuning (например, новые шаблоны). - [[Вики/safety benchmarks\|Safety benchmarks]]: AdvBench, HarmBench, SafetyBench — стандартные…
answerЧто такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?
…Такая автономность требует особенно надёжной обвязки: - [[Вики/Safetysecurity\|Безопасность]]: агент может случайно выполнить опасное действие (удалить файл, отправить письмо). Guardrails…
answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?
…Как вы оцениваете alignment модели с человеческими ценностями без gold standard? ## Краткий тезис [[Вики/Evaluation\|Оценка]] [[Вики/safety alignment\|alignment…
answerКак вы проектируете Harness для mission-critical приложения? Приведите пример с агентом для банковских переводов.
…Для агента банковских переводов [[Вики/Harness-engineering\|Harness]] включает многослойную архитектуру: [[Вики/Safetysecurity\|safety]] [[Вики/NeMo Guardrails\|guardrails]], admission [[Вики…
answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
…Преимущества единой архитектуры Chameleon - Естественное [[Вики/safety alignment\|выравнивание]] — [[Вики/model\|модель]] не нуждается в специальных модулях слияния; [[Вики/safety…
answerКак вы проектируете red teaming evaluation для jailbreak устойчивости?
…объективно сравнить [[Вики/Safetysecurity\|безопасность]] разных [[Вики/GPT-4o\|LLM]] (например, [[Вики/Llama\|LLaMA]] vs [[Вики/Mistral\|Mistral]] vs [[Вики…
answerЧто такое Constitutional AI и как оно применяется в производстве?
…flows: - check_safety - check_factual_consistency config: safety_model: "meta-llama/Llama-Guard-3-8B" constitution: "constitution.yaml" ``` Преимущества runtime…
wikiwhite-box jailbreak
# white-box jailbreak ## Определение Атака с полным доступом к модели (веса, градиенты), направленная на обход safety alignment. Примеры: HotFlip, FGSM…
answerКак вы деплоите policy (RLHF модель) в production с online feedback loop?
…Важно настроить [[Вики/мониторинг\|мониторинг]] не только качества ответов, но и безопасности, [[Вики/Latency\|latency]] и [[Вики/safety alignment\|alignment…