Поиск

wikiconstitutional check
# constitutional check ## Определение Проверка на безопасность и соответствие конституционным ограничениям. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…
wikiSafety & Guardrails
# Safety & Guardrails ## Определение Архитектурный слой, отвечающий за безопасность и ограничения выходных данных LLM, включая runtime guardrails. ## Где встречается - [[800+ вопросов…
wikipsychological safety
# psychological safety ## Определение Условие, при котором члены команды не боятся сообщать об ошибках; измеряется опросами и является основой blameless postmortem…
wikiboundaries
# boundaries ## Определение Ограничения на действия агента, включающие безопасность, лимиты и запрещённые операции; определяются в harness для контроля поведения агента. ## Где…
wikienforce_partition_keys
…partition keys для всех пакетов в InfiniBand-сети, повышая безопасность. ## Где встречается - [[8. Настроить InfiniBand partition keys|8. Настроить InfiniBand…
wikiDistroless
# Distroless ## Определение Тип контейнерного образа, содержащий только минимально необходимые библиотеки и без оболочки, что повышает безопасность и уменьшает поверхность атаки…
wikirisk assessment
# risk assessment ## Определение Процесс идентификации, анализа и оценки рисков для каждой категории атак, используемый для управления безопасностью системы. ## Где встречается…
wikiSession-level scoping
…в пределах одной сессии диалога агента, обеспечивая изоляцию и безопасность. ## Где встречается - [[887. Как проектировать agent permissions (least privilege модель…
wikiDAN
…Пример ручной атаки на безопасность модели. ## Где встречается - [[127. Как вы проводите red teaming LLM-приложения Назовите 3 техники.|127…
wikiread-only rootfs
…Предотвращает запись в корневую ФС, повышая безопасность. ## Где встречается - [[886. Как делать sandboxing для agent tools (изоляция выполнения)|886. Как…
wikiCybersecurity
# Cybersecurity ## Определение Область информационной безопасности, обеспечивающая устойчивость системы к атакам и ошибкам, включая защиту LLM. ## Где встречается - [[732. Что такое…
wikired teaming loop
…Позволяет циклически повышать безопасность модели. ## Где встречается - [[497. Как вы проектируете red teaming evaluation для jailbreak устойчивости|497. Как вы…
wikiTLS 1.3
# TLS 1.3 ## Определение Версия протокола TLS, обеспечивающая улучшенную безопасность и производительность для шифрования канала передачи данных. ## Где встречается - [[83…
wikiresponse safety
# response safety ## Определение Метрика, оценивающая долю ответов LLM, не содержащих вредоносный контент (инъекции, личные данные, опасные инструкции). Критична для развёртывания…
wikiJSON Schema validation
…Обеспечивает безопасность и предсказуемость вызовов в системах агентов. ## Где встречается - [[751. Что такое Tool System в Harness (defineTool, registry, JSON…
wikiSafety/security
# Safety/security ## Определение Категория тестов, включающая запросы на вредоносные темы и попытки инжекции, а также более широкая область, охватывающая robustness…
answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?
…Если приоритет — безопасность, выбираем M3. | Цель | Вес (пример) | Метрика | |------|--------------|---------| | Полезность | 0.4 | Win rate по полезности | | Безопасность | 0.4 | Частота…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать test plan для агента
…Критерии приемки (Definition of Done) - [ ] Test plan содержит все 5 категорий тестов (функциональные, надежность, безопасность, производительность, consistency). - [ ] В документе приведено…
answerКак изменилась роль инженера с приходом Harness Engineering?
…калькулятор, SQL-запрос | | [[Вики/boundaries\|Границы]] | Ограничения на действия (безопасность, лимиты, запрещённые операции) | Запрет на удаление данных, лимит на количество…
answerЧто такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?
…добавление в [[Вики/промпт агента\|системный промпт]] явного запрета на смену роли, которая нарушает безопасность; fine-tuning на adversarial role…
answerЧто такое Constitutional AI и как RLHF связан с ним?
…Преимущества Constitutional AI - [[Вики/Safetysecurity\|Безопасность]]: конституция явно запрещает вредные действия, и [[Вики/model\|модель]] учится их избегать даже без…
answerЧто такое Agent Loop и какие компоненты входят в production-ready loop?
…Такой цикл обеспечивает надёжность, масштабируемость и безопасность агентного поведения. --- ## 1. Термин: Agent Loop – ядро слоя Harness В архитектуре RAG|Agentic…
answerЧто такое AdmissionController в Harness и зачем он нужен?
…три ключевые причины ### 3.1 Безопасность (Safety) [[Вики/agent\|Агент]], даже хорошо обученный, может ошибиться или быть скомпрометирован (атака [[Вики…
answerЧто такое representation engineering (RepE) и зачем он нужен?
…можно динамически включать/выключать контроль во [[Вики/Latency\|время инференса]]. - [[Вики/Safetysecurity\|Безопасность]]: позволяет блокировать нежелательное поведение ([[Вики/toxic content…
answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…награда за безопасность может быть частью reward model. Adversarial примеры используются как негативные примеры. - **DPO (Direct Preference Optimization)** : альтернатива RLHF…
wikiConstitutional AI
# Constitutional AI ## Определение Подход, при котором LLM генерирует сравнения на основе заданных принципов (конституции), что лежит в основе RLAIF. ## Где…
answerЧто такое adversarial retrieval (атака на retrieval компонент)?
…ответ не соответствует запросу. - [[Вики/Safetysecurity\|Безопасность]]: утечка данных, выполнение вредоносных инструкций. - [[Вики/DoS\|Отказ в обслуживании]]: если adversarial документ…
answerКак вы делаете agent с human values alignment (Constitutional AI для агентов)?
…решения агента соответствуют заранее заданным человеческим принципам ([[Вики/Safetysecurity\|безопасность]], честность, приватность, [[Вики/Helpfulness Harmlessness\|полезность]]). **[[Вики/Constitutional AI\|Constitutional…
answerКак вы A/B тестируете агентов в production?
…Чем отличается эвалюация LLM от эвалюации традиционных ML моделей\|178]] | Как вы обеспечиваете безопасность агентов? | | [[180. Какие failure modes уникальны…
answerЧто такое watermarking для LLM генераций и как его детектировать?
…законы (AI [[Вики/Adaptive computation time\|Act]] в Европе) требуют маркировки AI-контента. - Безопасность RAG|Agentic RAG: агент может встраивать…
answerЧто такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования?
…5. [[Вики/Safety & Guardrails\|Safety & Guardrails]] — безопасность на всех этапах. Слой 5 является сквозным: он может анализировать как входящий запрос…
answerКак вы управляете секретами (API keys для LLM) в Kubernetes?
…Это обеспечивает безопасность, audit‑логи и централизованное управление доступами. ## 1. Проблема: почему API keys нельзя хранить в открытом виде Любое…
answerКак делать sandboxing для agent tools (изоляция выполнения)?
…Правильный выбор песочницы — [[Вики/trade-off\|компромисс]] между безопасностью, производительностью и сложностью эксплуатации. --- ## 1. Зачем нужен sandboxing в agentic RAG…
answerКак вы переносите агента из прототипа в production (MLOps)?
…в POC можно игнорировать [[Вики/graceful degradation\|отказоустойчивость]], [[Вики/мониторинг\|мониторинг]] и [[Вики/Safetysecurity\|безопасность]] — в production это критично. --- ## 2…
answerКак работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?
…Rainbow Teaming [[Вики/rainbow teaming\|Rainbow teaming]] — это методология управления безопасностью, заимствованная из кибербезопасности и адаптированная для [[Вики/LLM\|LLM…
answerКак вы комбинируете несколько языков представления в одном пайплайне?
…average} print(json.dumps(result)) """ exec(code) ``` [[Вики/Safetysecurity\|Безопасность]]: выполнение кода должно быть ограничено (Docker, subprocess с ограничениями, sandbox…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать distributed lock для обновления памяти с использованием Redis Redlock
…проверьте, что lock не может быть освобождён другим клиентом (безопасность). 2. Запустите тесты: `pytest -v test_distributed_lock.py`. 3…
answerКак вы деплоите policy (RLHF модель) в production с online feedback loop?
…Зачем деплоить [[Вики/Policy\|policy]] в [[Вики/production\|production]]: - Улучшение качества ответов ([[Вики/Helpfulness Harmlessness\|полезность]], [[Вики/Safetysecurity\|безопасность]], стиль…
answerКак вы проектируете Harness для mission-critical приложения? Приведите пример с агентом для банковских переводов.
…Для банковских переводов это означает абсолютную [[Вики/reliability\|надёжность]], [[Вики/Safetysecurity\|безопасность]] и аудируемость. - [[Вики/Agentic RAG\|Agentic RAG]] — архитектура…
answerКак работает prompt leakage (кража системного промпта) и как защититься?
…более новые модели (GPT-4, LLaMA 3) менее подвержены leakage благодаря RLHF и fine-tuning на безопасность. - Тестирование красной команды…
answerЧто такое model cards и system cards и как их составлять?
…Без system card невозможно гарантировать безопасность и предсказуемость такого сложного пайплайна. --- ## 9. Пет-проект для закрепления [[Вики/Task\|Задача]]: Создать…
answerЧто такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?
…Такая автономность требует особенно надёжной обвязки: - [[Вики/Safetysecurity\|Безопасность]]: агент может случайно выполнить опасное действие (удалить файл, отправить письмо). Guardrails…
answerКак вы логируете все вызовы LLM для аудита?
…Как вы шифруете данные для RAG (конфиденциальность)\|68]] (безопасность RAG-систем) | Маскировка PII и контроль доступа напрямую связаны с безопасностью…
answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?
…Типичные ценности: - **[[Вики/safety\|Safety]]** — [[Вики/Safetysecurity\|безопасность]] ([[Вики/refusal\|отказ]] от вредных советов); - [[Вики/Helpfulness Harmlessness\|Helpfulness]] — [[Вики/Helpfulness…
answerКакие протоколы меж-агентской коммуникации существуют (A2A, MCP, OpenAI swarm)?
…Swarm завязан на OpenAI API. - [[Вики/Safetysecurity\|Безопасность]]: A2A и MCP не имеют встроенной аутентификации (нужно добавлять OAuth/JWT). Swarm…
answerКак вы обеспечиваете «человека в петле» (HITL) для критических действий агента?
…Зачем нужен [[Вики/human-in-the-loop\|HITL]] - [[Вики/Safetysecurity\|Безопасность]]: предотвращение необратимых ошибок (удаление данных, отправка писем). - [[Вики/accuracy…
answerЧто такое EU AI Act и как оно влияет на деплой LLM в production?
…Основные цели: - Обеспечить [[Вики/Safetysecurity\|безопасность]] и соблюдение фундаментальных прав граждан. - Стимулировать инновации за счёт чётких правил. - Создать единый рынок…
answerКак вы fine-tune модель для функции "вызов внешнего API"?
…Если ответ содержит вызов: - Извлечь имя функции и параметры. - Проверить [[Вики/Safetysecurity\|безопасность]] ([[Вики/Validation set\|валидация]] параметров, [[Вики/API…
answerКакие инструменты (tools/functions) дать агенту для автоматизации бизнес-задач? (ваш кейс!)
…Каждый инструмент — это [[Вики/API\|функция]] с конкретным назначением. | Инструмент (функция) | Что делает | Пример вызова LLM | Безопасность / Ограничения | |:---|:---|:---|:---| | `get_order…
answerЧто такое Constitutional AI и как оно применяется в производстве?
…Это снижает [[Вики/cost\|затраты]] на ручную разметку и повышает [[Вики/Safetysecurity\|безопасность]], но требует тщательной разработки самой конституции. --- ## 1…