Поиск

wikiSafety & Guardrails
# Safety & Guardrails ## Определение Архитектурный слой, отвечающий за безопасность и ограничения выходных данных LLM, включая runtime guardrails. ## Где встречается - [[800+ вопросов…
wikiDAN
# DAN ## Определение Известный hand-crafted jailbreak промпт, предназначенный для обхода ограничений LLM. Пример ручной атаки на безопасность модели. ## Где встречается…
wikiCybersecurity
# Cybersecurity ## Определение Область информационной безопасности, обеспечивающая устойчивость системы к атакам и ошибкам, включая защиту LLM. ## Где встречается - [[732. Что такое…
wikiTLS 1.3
…обеспечивающая улучшенную безопасность и производительность для шифрования канала передачи данных. ## Где встречается - [[83. Как спроектировать систему, где LLM должна работать…
wikiresponse safety
# response safety ## Определение Метрика, оценивающая долю ответов LLM, не содержащих вредоносный контент (инъекции, личные данные, опасные инструкции). Критична для развёртывания…
wikiSafety/security
…Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] - [[140. Как вы…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать test plan для агента
…Используйте публичный LLM API (OpenAI / Anthropic). 2. Создайте 5–10 типовых пользовательских запросов, которые покрывают все инструменты и частые [[Вики…
answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?
…Alignment (выравнивание) и проблема gold standard [[Вики/safety alignment\|Alignment]] — это процесс настройки модели ([[Вики/LLM\|LLM]], агента) так, чтобы…
answerЧто такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?
…такое red-teaming LLM? | | [[351. Как работает model stealing attack и как защититься\|351]] | Как тестировать безопасность RAG-системы? | | [[353…
answerКак изменилась роль инженера с приходом Harness Engineering?
…валидация логики агента | | Навыки | Программирование, алгоритмы | Системное мышление, понимание LLM, безопасность | ## 6. Инструменты для Harness Engineering Современные фреймворки упрощают создание…
answerЧто такое Agent Loop и какие компоненты входят в production-ready loop?
…GPT-4o\|LLM]] возвращает текстовый ответ, он проходит через [[Вики/NeMo Guardrails\|Guardrails]]. Типы проверок: - [[Вики/Safetysecurity\|Безопасность]] — отсутствие токсичных…
answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…Как вы защищаете multi-agent систему от вредоносного агента\|359]] | Безопасность RAG-систем | | [[358. Что такое watermarking для LLM генераций…
answerЧто такое Constitutional AI и как RLHF связан с ним?
…Берём базовую [[Вики/model\|модель]] (например, предобученный [[Вики/LLM\|LLM]]). 2. Генерируем множество вредных запросов ([[Вики/red teaming\|red teaming…
answerЧто такое adversarial retrieval (атака на retrieval компонент)?
…LLM-as-a-judge Перед передачей документов LLM, попросить другую LLM (или ту же) оценить релевантность и безопасность документа. Это…
answerЧто такое representation engineering (RepE) и зачем он нужен?
…Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency\|300]] | Безопасность LLM и jailbreak defense | --- ## Навигация (Obsidian…
wikiConstitutional AI
# Constitutional AI ## Определение Подход, при котором LLM генерирует сравнения на основе заданных принципов (конституции), что лежит в основе RLAIF. ## Где…
answerЧто такое AdmissionController в Harness и зачем он нужен?
…email с вложением .exe» | | **LLM Guardrails (Nvidia NeMo, Guardrails AI)** | Вход/выход LLM | Токсичность, безопасность, формат | «Не генерировать SQL с…
answerЧто такое watermarking для LLM генераций и как его детектировать?
…Как работает membership inference атака на LLM\|357]] | Безопасность RAG-систем | | [[356. Что такое data poisoning атака на fine-tuning…
answerКак вы управляете секретами (API keys для LLM) в Kubernetes?
…Как вы управляете секретами (API keys для LLM) в Kubernetes? ## Краткий тезис Управление секретами (API keys для LLM) в Kubernetes…
answerЧто такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования?
…Generation]] — вызов LLM. 4. [[Вики/monitoring errorslatency\|Observability]] — мониторинг и логирование. 5. [[Вики/Safety & Guardrails\|Safety & Guardrails]] — безопасность на всех…
answerКак вы делаете agent с human values alignment (Constitutional AI для агентов)?
…Вики/GPT-4o\|LLM]] проверить, выполнено ли) - Действенным (ясно, что делать при нарушении) - Приоритезированным ([[Вики/Safetysecurity\|безопасность]] выше полезности) ## 3…
answerКак работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?
…Rainbow Teaming [[Вики/rainbow teaming\|Rainbow teaming]] — это методология управления безопасностью, заимствованная из кибербезопасности и адаптированная для [[Вики/LLM\|LLM…
answerКак вы A/B тестируете агентов в production?
…Чем отличается эвалюация LLM от эвалюации традиционных ML моделей\|178]] | Как вы обеспечиваете безопасность агентов? | | [[180. Какие failure modes уникальны…
answerКак вы переносите агента из прототипа в production (MLOps)?
…Вики/Safetysecurity\|безопасность]] — в production это критично. --- ## 2. Версионирование промптов (Prompt versioning) Промпт — это «код» для LLM. Как и обычный…
answerКак вы комбинируете несколько языков представления в одном пайплайне?
…language representation»\|186]] | Безопасность выполнения кода агентом | | [[185. Как код как язык представления улучшает рассуждение LLM\|185]] | Оценка качества агента…
answerЧто такое model cards и system cards и как их составлять?
…Как выполнять requirement on transparency (статья 13 EU AI Act) для LLM\|733]] | Как обеспечить безопасность в Agentic RAG (guardrails…
answerКак работает prompt leakage (кража системного промпта) и как защититься?
…методы атак на LLM? | | [[610. Что такое malicious embeddings (атака через векторные БД)\|610]] | Как обеспечить безопасность данных в RAG…
answerЧто такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?
…Harness Engineering можно рассматривать как надстройку над MLOps для LLM-приложений. MLOps отвечает за модель, Harness Engineering — за её поведение…
answerЧто такое EU AI Act и как оно влияет на деплой LLM в production?
…риска | Описание | Примеры для LLM | Требования | |---------------|----------|-----------------|------------| | Minimal risk | Системы без существенного влияния на права и безопасность | Чат-бот для генерации…
answerКак вы логируете все вызовы LLM для аудита?
…Как вы логируете все вызовы LLM для аудита? ## Краткий тезис [[Вики/мониторинг в production\|Логирование]] всех вызовов [[Вики/LLM\|LLM…
answerКак вы деплоите policy (RLHF модель) в production с online feedback loop?
…В отличие от базовой [[Вики/LLM\|LLM]], [[Вики/Policy\|policy]] оптимизирована под предпочтения людей: она генерирует ответы, которые с большей…
answerКакие инструменты (tools/functions) дать агенту для автоматизации бизнес-задач? (ваш кейс!)
…Каждый инструмент — это [[Вики/API\|функция]] с конкретным назначением. | Инструмент (функция) | Что делает | Пример вызова LLM | Безопасность / Ограничения | |:---|:---|:---|:---| | `get_order…
answerКак вы проектируете API для внешних систем, использующих вашу LLM?
…Что такое Semantic Caching и как вы его реализуете\|91]] | Безопасность LLM и предотвращение prompt injection | | [[92. Зачем нужен embedding…
answerOpenAI vs Anthropic vs Groq vs Self-hosted — что выбираете?
…Для сценариев с конфиденциальными данными и [[Вики/Long Context\|long-context]] — [[Вики/LLM endpoint\|Anthropic]] ([[Вики/Safetysecurity\|безопасность]], 200k контекст…
answerКак вы оцениваете alignment модели с человеческими ценностями без gold standard?
…Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)\|500]] | Как обеспечить безопасность действий агента? | | [[501. Что…
answerКак делать sandboxing для agent tools (изоляция выполнения)?
…Правильный выбор песочницы — [[Вики/trade-off\|компромисс]] между безопасностью, производительностью и сложностью эксплуатации. --- ## 1. Зачем нужен sandboxing в agentic RAG…
answerКак вы защищаете агента от tool injection (вредоносный API ответ)?
…Что такое differential privacy для LLM и как она работает\|620]] | Как обеспечить безопасность RAG-системы? | | [[610. Что такое malicious…
answerКакие протоколы меж-агентской коммуникации существуют (A2A, MCP, OpenAI swarm)?
…с любыми LLM, поддерживающими function calling. A2A требует брокера сообщений. Swarm завязан на OpenAI API. - [[Вики/Safetysecurity\|Безопасность]]: A2A и…
answerЧто такое Constitutional AI и как оно применяется в производстве?
…CAI fine-tuning. - Если используете готовую LLM — runtime guardrails. - Если нужна максимальная безопасность — комбинация обоих подходов. --- ## 7. Мониторинг и итеративное…
answerКак вы обрабатываете production incident с LLM (playbook)?
…Что такое SLI (Service Level Indicators) для AI системы и как их собирать\|388]] | Безопасность LLM (prompt injection) | | [[389. Как…
answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…Как работает membership inference атака на LLM\|602]] | Как оценить безопасность LLM-агента | | [[610. Что такое malicious embeddings (атака через…
answerКак вы проектируете Harness для mission-critical приложения? Приведите пример с агентом для банковских переводов.
…Safetysecurity\|безопасность]] и аудируемость. - [[Вики/Agentic RAG\|Agentic RAG]] — архитектура, где [[Вики/agent\|агент]] ([[Вики/GPT-4o\|LLM]] с планированием…
answerКак вы обеспечиваете «человека в петле» (HITL) для критических действий агента?
…1. [[Вики/AI agents\|Агент]] планирует действие — [[Вики/LLM\|LLM]] решает, что нужно сделать (например, удалить файл). 2. Детектор опасных…
answerКак вы защищаете multi-agent систему от вредоносного агента?
…self.role = role self.allowed_tools = { "search": ["vector_db_query"], "summarizer": ["llm_call", "text_processor"], "critic": ["llm_call", "quality_check…
answerЧто такое Indirect Prompt Injection через RAG и как защититься?
…Однако значительно повышает безопасность. --- ## 8. Дополнительные меры - Документы из ненадёжных источников помечайте или храните в отдельной базе данных, куда LLM…
answerКакие failure modes уникальны для multi-agent систем (vs single agent)?
…Как код как язык представления улучшает рассуждение LLM\|185]] | Безопасность в multi-agent системах | --- ## 11. Навигация (Obsidian) - Предыдущий: [[179. Архитектура…
answerКак проводить safety case для LLM системы (аналог safety case в авиации)?
…Для [[Вики/LLM\|LLM]] аналог только формируется, но идея та же: **доказать, что система не причинит неприемлемого вреда**. --- ## 2. Зачем…
answerКак код как язык представления улучшает рассуждение LLM?
…Безопасность | Низкая (нет риска выполнения) | Требует песочницы | ## 8. Ограничения и риски - Синтаксическая [[Вики/accuracy\|точность]]: [[Вики/GPT-4o\|LLM]] должна…
answerКак вы делаете A/B тест между двумя агентами с разными архитектурами (ReAct vs Plan-and-Execute)?
…Можно: - Использовать **[[Вики/LLM-as-a-judge\|LLM-as-a-judge]]** для оценки качества ответов [[Вики/Treatment\|treatment]] (например, по…
answerКак вы fine-tune модель для функции "вызов внешнего API"?
…Зачем fine-tune для вызова API? Стандартная [[Вики/LLM\|языковая модель]] обучена генерировать связный текст, но не умеет «понимать», что…