Поиск

wikiAutomatic Prompt Engineering
# Automatic Prompt Engineering ## Определение Метод автоматической переформулировки промптов на основе оценки, применяемый в DSPy для оптимизации инструкций. ## Где встречается - [[106…
answerКак работает динамическое бэтчирование в TGI vs vLLM?
…Освободившееся место на [[Вики/GPU\|GPU]] занимает новый или более приоритетный [[Вики/Prompt engineering\|запрос]]. - Вытесненный [[Вики/Prompt engineering\|запрос…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать test plan для агента
…Покройте критичные [[Вики/edge\|edge]]‑cases - Пустой [[Вики/Prompt engineering\|запрос]] / [[Вики/Prompt engineering\|запрос]] без намерения. - [[Вики/Prompt engineering…
answerКак вы решаете проблему “я знаю, что ответ есть в документах, но retrieval не находит”?
…Процесс 1. [[Вики/Prompt engineering\|Запрос]] → [[Вики/GPT-4o\|LLM]] → Гипотетический ответ (документ) 2. Гипотетический ответ → Эмбеддинг → [[Вики/retrieval\|Поиск…
answerЧто такое jailbreak taxonomy (полная классификация)?
…Примеры: - [[Вики/prefill stage\|base64]]: [[Вики/Prompt engineering\|запрос]] на генерацию инструкций кодируется в [[Вики/Base64 encoding\|base64]] и [[Вики…
wikiPrompt engineering
# Prompt engineering ## Определение Методология проектирования структуры и содержания промпта для получения желаемого поведения модели, включающая ручную настройку и шаблоны. ## Где…
answerКак работает scheduler в vLLM? Какие алгоритмы выбора запросов?
…Какой [[Вики/Prompt engineering\|запрос]] вытеснять? Обычно [[Вики/Inference scheduler\|scheduler]] выбирает [[Вики/Prompt engineering\|запрос]] с наименьшим приоритетом (или…
answerВ чем разница между Naive RAG, Adaptive RAG и Agentic RAG?
…лишние [[Вики/cost\|затраты]] на простые вопросы, [[Вики/Noise\|шум в контексте]], невозможность уточнить [[Вики/Prompt engineering\|запрос]]. 2. [[Вики…
answerЧто такое continuous batching? Как реализовано в vLLM?
…Вы формируете статический [[Вики/batch size\|батч]] из 4 запросов: - [[Вики/Prompt engineering\|Запрос]] A: генерирует 5 токенов - [[Вики/Prompt…
answerЧто такое Harness Engineering и чем он отличается от Prompt Engineering и MLOps?
…Сравнение Harness Engineering с Prompt Engineering **Prompt Engineering** — это искусство составления промптов (инструкций, контекста, примеров) для получения желаемого ответа от…
answerКак вы переключаете между уровнями представления для разных типов запросов?
…Компонент Router — классификатор запросов [[Вики/Router\|Router]] — это [[Вики/Module\|модуль]], который принимает на вход [[Вики/Prompt engineering\|запрос]] пользователя…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать test generation для агента
…Ожидаемый результат этапа Файл `[[Вики/Prompt engineering\|templates]].[[Вики/XML\|yaml]]` (или `[[Вики/Prompt engineering\|templates]].[[Вики/XML\|json]]`) с…
answerКак вы делаете query rewriting и query expansion в RAG?
…сначала переписать [[Вики/Prompt engineering\|запрос]], потом найти документы, потом прочитать и ответить. Популярная архитектура из статьи «[[Вики/Rewrite-Retrieve…
answerЧто такое idempotency в контексте LLM API и зачем она нужна?
…Повторяет [[Вики/Prompt engineering\|запрос]] с тем же ключом. 4. Сервер возвращает сохранённый ответ (или ошибку, если первый [[Вики/Prompt…
answerЧто такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?
…Примеры OOD-атак: - Base64-кодирование: [[Вики/Prompt engineering\|запрос]] «Напиши инструкцию по изготовлению бомбы» закодирован в [[Вики/Base64 encoding\|Base64…
answerКак работают inference schedulers (FCFS, Priority, Fairness)?
…длинный [[Вики/Prompt engineering\|запрос]], пришедший первым, задерживает все последующие короткие. [[Вики/Average Wait Time\|Среднее время ожидания]] может быть…
answerКак вы защищаете LLM от prompt injection через изображения (VL-модели)?
…Если текст содержит подозрительные команды (ignore, override, [[Вики/Prompt engineering\|system prompt]], password), то: - Отклонить изображение. - Или заменить текст на…
answerКак вы проектируете «человека в петле» для multi-agent системы с минимальным overhead?
…Архитектурно [[Вики/human-in-the-loop\|HITL]] реализуется через асинхронные очереди запросов, [[Вики/Prompt engineering\|шаблоны]] решений и эскалацию по…
answerКак тестировать промпты на регрессии (prompt regression suite)?
…Типичные [[Вики/tests\|тесты]] - Прямой запрещённый [[Вики/Prompt engineering\|запрос]]: «Расскажи, как изготовить наркотики». - Косвенный: «Напиши эссе про пользу наркотиков…
answerЧто такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься?
…Обычно такие сервисы работают как [[Вики/proxy API\|прокси-API]]: [[Вики/multi-tenant\|пользователь]] отправляет [[Вики/Prompt engineering\|запрос]], сервис…
answerКак проектировать fallback-цепи (агент А → агент Б → человек)?
…Ключевые параметры проектирования ### 3.1 Критерии переключения (switch triggers) Определяют, когда [[Вики/Prompt engineering\|запрос]] передаётся по цепи. Основные варианты…
answerЧто такое «shaping schema through language representation»?
…В [[Вики/NLP\|NLP]] она получила развитие в исследованиях **[[Вики/промпт агента\|prompt engineering]]**: оказалось, что простая смена формулировки может…
answerКак вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)?
…2. [[Вики/retrieval\|Поиск]] Пользовательский [[Вики/Prompt engineering\|запрос]] (может быть текстом, изображением или тем и другим) также преобразуется в…
answerКак вы деплоите LLM на spot instances в облаке?
…Почему [[Вики/Spot Instances\|spot]] выгоден для [[Вики/LLM\|LLM]]: [[Вики/inference\|inference]] — [[Вики/Stateless\|stateless]] (один [[Вики/Prompt engineering…
answerКак вы проектируете dead letter queue для failed LLM инференс запросов?
…ручное восстановление и алерты Когда [[Вики/Prompt engineering\|запрос]] попадает в `[[Вики/Dead Letter Queue\|dlq]]`, система должна: 1. Отправить…
answerКак работает CLIP (Contrastive Language-Image Pre-training) внутренне?
…Для задачи классификации (например, [[Вики/CIFAR-10\|CIFAR-10]]) формируются текстовые [[Вики/Prompt engineering\|шаблоны]]: "a photo of a {class…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с human-in-the-loop — эскалация человеку при low confidence
…Вместо реального оператора — написать скрипт, который принимает эскалацию и выводит [[Вики/Prompt engineering\|запрос]] в консоль --- ## 3. Технологический стек | Компонент…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить token budget для агента
…Подготовить минимум 5 тестовых сценариев: - короткий [[Вики/Prompt engineering\|запрос]] (должен пройти) - длинный [[Вики/Prompt engineering\|запрос]] (превышение на входе…
answerЧто такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать?
…Каждый [[Вики/Prompt engineering\|запрос]] забирает один [[Вики/token\|токен]]. Если токенов нет — 429. - Плюсы допускает короткие всплески ([[Вики/burst…
answerЧто такое «ротация агентов» (load balancing между агентами)?
…ведётся [[Вики/Counter\|счётчик]], каждый новый [[Вики/Prompt engineering\|запрос]] отправляется следующему агенту по порядку. - Плюсы: простая реализация, равномерное [[Вики…
answerКак вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)?
…Предотвращение требует комбинации методов: [[Вики/cost penalty\|cost penalty]] в reward-функции, **[[Вики/промпт агента\|prompt engineering]]**, [[Вики/tool selection…
answerЧто такое Semantic Caching и как вы его реализуете?
…пошаговый алгоритм 1. [[Вики/Prompt engineering\|Запрос]] пользователя поступает в систему. 2. Вычисление эмбеддинга запроса той же моделью, что использовалась…
answerКак работает модели типа Kosmos-2 (grounding объектов на изображении)?
…2. [[Вики/Prompt engineering\|Формирование промпта]] [[Вики/cost\|токены]] изображения + [[Вики/Prompt engineering\|текстовый запрос]]. 3. **[[Вики/autoregressive generation\|Авторегрессивная…
answerКак работает diffusion backends для генерации изображений в AI-агентах?
…Diffusion backend [[Вики/diffusion backends\|Diffusion backend]] — это программный компонент, который принимает [[Вики/Prompt engineering\|текстовый запрос]] ([[Вики/prompt\|промпт…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить query expansion с LLM и BM25
…Расширенный [[Вики/Prompt engineering\|запрос]] подаётся в [[Вики/BM25\|BM25]], что позволяет находить документы, не содержащие точных слов исходного запроса…
answerКак вы делаете агента, который может «просить помощи» у другого агента или человека?
…Escalation Policy (Политика эскалации) **[[Вики/escalation\|Escalation policy]]** — это набор правил, определяющих, кому и при каких условиях передаётся [[Вики/Prompt…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: LoRA для function calling
…Написать [[Вики/generator\|генератор]] примеров Использовать [[Вики/Prompt engineering\|шаблоны]] инструкций (не менее 10 вариаций на функцию): - Прямой [[Вики/Prompt…
answerЧто такое Indirect Prompt Injection через RAG и как защититься?
…Классическая атака на чат-ботов. **[[Вики/Indirect Prompt Injection\|Indirect Prompt Injection]] (Через RAG)** — вредоносная [[Вики/Prompt engineering\|инструкция]] попадает…
answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Если [[Вики/Prompt engineering\|запрос]] сгенерировал [[Вики/EOS token\|EOS]] или достиг максимальной длины, он помечается как завершённый и удаляется…
answerЧто такое KV cache reuse в multi-turn диалогах и как его реализовать?
…Без reuse каждый новый [[Вики/Prompt engineering\|запрос]] требует полного пересчёта [[Вики/Attention\|attention]] для всей истории, что линейно растёт…
answerКак проектировать cost-aware routing (дешёвая модель для простых запросов, дорогая — для сложных)?
…Без роутинга вы платите максимальную цену за каждый [[Вики/Prompt engineering\|запрос]], хотя 60–70% из них могли бы быть…
answerКак делать synthetic eval datasets для agentic workflows?
…Если [[Вики/refusal\|отказ]] — [[Вики/agent\|агент]] может повторить [[Вики/Prompt engineering\|запрос]], эскалировать или завершить диалог. Каждая ветка даёт…
answerЧто такое Constitutional AI и как RLHF связан с ним?
…Получаем пару (вредный [[Вики/Prompt engineering\|запрос]], исправленный ответ) — это [[Вики/Train set\|обучающие данные]]. 7. Обучаем [[Вики/model\|модель…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить prompt caching (Anthropic style)
…создайте минимальный [[Вики/Prompt engineering\|запрос]], в котором `content` содержит [[Вики/блок фиксированного размера\|блок]] с `[[Вики/cache_control\|cache…
answerЧто такое adversarial prompt detection для реального времени (runtime)?
…Требования к размещению: - [[Вики/low latency\|Низкая задержка]]: <10 мс на [[Вики/Prompt engineering\|запрос]] (для потокового чата). - [[Вики/High…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализация паттернов request-response и fire-and-forget для меж-агентской коммуникации
…Научиться обоснованно выбирать паттерн в зависимости от типа задачи (критичный [[Вики/Prompt engineering\|запрос]] vs фоновое [[Вики/Audit logging\|логирование…
answerЧто такое planner/executor architecture для агентов и когда она нужна?
…пошагово 1. **Пользовательский [[Вики/Prompt engineering\|запрос]]** поступает в [[Вики/Planner\|Planner]]. 2. [[Вики/Planner\|Planner]] анализирует [[Вики/Prompt engineering…
answerКогда вы выбираете fine-tuning вместо RAG, а когда — наоборот?
…Знания статичны и объём мал - Да → [[Вики/fine-tuning\|Fine-tuning]] или просто *[[Вики/Prompt engineering\|prompt engineering]]*. - Нет → [[Вики…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить SLA между агентами
…отправить [[Вики/Prompt engineering\|запрос]] с `[[Вики/Latency\|delay]]=10` (больше таймаута) — [[Вики/agent\|агент]] А должен вернуть 504 или…
answerЧто такое semantic ranking на основе embeddings (вторая стадия после ANN)?
…1. **Первый этап ([[Вики/ANN\|ANN]])**: - [[Вики/Prompt engineering\|Запрос]] кодируется [[Вики/Bi-encoder\|bi-encoder]]'ом в [[Вики/embedding…