Поиск

wikiCost Structure
…compute, embedding, инфраструктура, команда. Используется для построения финансовой модели LLM-продукта. ## Где встречается - [[145. Сделать финансовую модель LLM-продукта|145…
wikiServing infrastructure
# Serving infrastructure ## Определение Инфраструктура для развёртывания и обслуживания моделей, включающая компоненты для масштабирования, маршрутизации и мониторинга. ## Где встречается - [[80. Какие…
wikicost savings
…гибридная инфраструктура). Может достигать 70–80% по сравнению с on-demand. ## Где встречается - [[418. Как вы деплоите LLM на spot…
answerКак вы планируете масштабирование команды вокруг LLM-системы?
…Как вы предотвращаете галлюцинации в production RAG системе\|96]] | Архитектура high-load RAG-системы (инфраструктура для масштабирования) | | [[97. Какую LLM…
answerКак вы защищаете агента от tool injection (вредоносный API ответ)?
…delete_all_files()" } ``` - Если [[Вики/agent\|агент]] передаёт весь ответ [[Вики/LLM\|LLM]] без фильтрации, [[Вики/LLM\|LLM]] может выполнить…
answerКак считать TCO (Total Cost of Ownership) для RAG/Agent системы?
…стратегии | Аспект | Вариант | Эффект | |---|---|---| | [[Вики/LLM\|LLM]] | Замена GPT-4o на open-source модель (Local) | CapEx растёт, но OpEx (API…
answerКак вы A/B тестируете агентов в production?
…Инфраструктура и мониторинг Для A/B тестирования агентов нужна следующая инфраструктура: - [[Вики/Feature flag\|Feature flag]] system (например, [[Вики/LaunchDarkly…
answerКак бы вы спроектировали multi-tenant RAG (разные компании, изолированные данные)?
…свою векторную БД (например, [[Вики/Qdrant\|Qdrant]], [[Вики/Qdrant\|Pinecone]]), свой [[Вики/LLM endpoint\|LLM endpoint]] (если нужно), свой [[Вики…
answerКак вы выбираете между online и batch инференсом для LLM?
…Как вы выбираете между online и batch инференсом для LLM? ## Краткий тезис Выбор между online и [[Вики/batch size\|batch…
answerКак вы проектируете dynamic benchmark (меняющийся со временем)?
…нужна автоматизированная инфраструктура: - [[Вики/Пайплайн генерации\|Пайплайн генерации]] запускается еженедельно, генерирует новые вопросы, валидирует их (человеком или LLM-проверкой). - Хранилище…
answerКак вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели?
…Что такое Recurrent Depth в контексте LLM и зачем это нужно\|155]] | Как балансировать между cost и качеством в Agentic…
answerКакие 3 книги/курса вы рекомендуете по production LLM?
…production LLM [[Вики/LLM production\|Production LLM]] — это не только вызов модели через [[Вики/API\|API]], а целая инфраструктура: управление…
answerКак вы обрабатываете production incident с LLM (playbook)?
…Как вы обрабатываете production incident с LLM (playbook)? ## Краткий тезис [[Вики/production incident\|Production incident]] с [[Вики/LLM\|LLM]] — это…
answerКак вы обрабатываете real-time фичи для LLM (например, текущий сток товара)?
…В **RAG|agentic RAG** LLM действует как агент, вызывая инструменты для получения таких данных. Проблема [[Вики/LLM\|LLM]] не имеет…
answerКак вы управляете разными версиями промптов в production?
…Почему промпты нужно версионировать отдельно от кода? **Термин «[[Вики/prompt\|промпт]]»** — это [[Вики/Prompt engineering\|инструкция]], передаваемая [[Вики/LLM\|LLM…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить budgeting для команд
…к логам использования LLM (токены, затраты) | API провайдера (OpenAI, Anthropic, Vertex AI) или внутренний gateway | | Инфраструктура мониторинга | Prometheus + Grafana / Datadog…
answerКак вы делаете A/B тестирование двух моделей в production?
…Подключить [[Вики/LLM-as-a-judge\|LLM-as-a-judge]] ([[Вики/gpt-3.5-turbo\|GPT-4]]) для оценки качества…
answerКак вы выбираете между online и batch инференсом для LLM?
…Как вы выбираете между online и batch инференсом для LLM? ## Краткий тезис Выбор между online и batch инференсом для LLM…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить cost efficiency провайдеров LLM (GPT-4 vs Claude vs Llama-3 self-hosted)
…Цель задачи Разработать воспроизводимый [[Вики/пайплайн\|pipeline]] для сравнения [[Вики/cost reduction\|cost efficiency]] трёх популярных LLM-провайдеров: [[Вики/LLM…
answerКакие метрики вы мониторите для LLM в production?
…Какие метрики вы мониторите для LLM в production? ## Краткий тезис [[Вики/мониторинг в production\|Мониторинг]] [[Вики/LLM\|LLM]] в [[Вики…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить search-based inference (AlphaSearch)
…Цель задачи Реализовать поисковый механизм поверх LLM, использующий MCTS (Monte Carlo Tree Search) в сочетании с verifier для выбора наилучшего…
answerКак организовать multi-region active-passive для LLM API?
…Для [[Вики/LLM\|LLM API]] критично обеспечить синхронную репликацию кэша (чтобы не терять закэшированные ответы) и асинхронную репликацию векторной базы…
answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…TensorRT-LLM\|TensorRT]] (например, [[Вики/Llama\|Llama]], [[Вики/Mistral\|Mistral]], [[Вики/Falcon\|Falcon]]) и не требует частой смены. - Инфраструктура NVIDIA…
answerКак вы шифруете данные для RAG (конфиденциальность)?
…в изолированном кластере Альтернатива TEE — полностью контролируемая инфраструктура без сторонних API. Модель (LLM и эмбер) разворачивается на собственных GPU‑серверах…
answerКак вы оцениваете cost-effectiveness LLM-пайплайна?
…Как вы оцениваете cost-effectiveness LLM-пайплайна? ## Краткий тезис [[Вики/Efficiency\|Cost-effectiveness]] ([[Вики/Efficiency\|экономическая эффективность]]) LLM-пайплайна — это…
answerКак в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)?
…обновления базовой [[Вики/LLM\|LLM]] (скрытые изменения [[Вики/API\|API]]), [[Вики/Evolution\|эволюция]] данных в векторной БД, изменение пользовательских паттернов…
answerЧто такое model cards и system cards и как их составлять?
…Структура Model Card (по Google 2018) | Раздел | Что включить | Пример для LLM | |--------|--------------|----------------| | Model Details | Название, версия, тип (LLM, эмбеддер), дата…
answerЧто такое эволюция (evolution) в Harness Engineering (component registry, drift detection)?
…Преимущества и вызовы | Преимущества | Вызовы | | ----------- | ------ | | Контролируемые изменения без сюрпризов | Необходимость поддерживать качественный набор тестов | | Быстрый откат при проблемах | Дополнительная инфраструктура…
answerКак реализовать online/offline feature consistency для LLM?
…Реализация - Для каждого события (например, клик, [[Вики/LLM call\|запрос к LLM]]) записываем [[Вики/timestamp\|timestamp]]. - При [[Вики/JOIN\|join…
answerКак вы деплоите LLM на spot instances в облаке?
…248]] | Инфраструктура для Agentic RAG (CI/CD, инференс, кэши) | | [[249. Как вы делаете load shedding при перегрузке LLM сервера\|249…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать cost-aware routing
…сравнить ответы каждой модели с эталонным ответом ([[Вики/LLM-as-a-judge\|LLM-as-judge]] с промптом) — считать долю совпадений…
answerЧто такое «canary testing» для агентов (10% трафика на новую версию)?
…Для AI-агентов deployment|канареечное тестирование особенно критично, потому что: - [[Вики/недетерминированность\|Недетерминизм]] [[Вики/LLM\|LLM]]: один и тот же…
answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?
…простой) | Средняя (нужен балансировщик) | Инфраструктура | --- ## 9. Практические рекомендации для production 1. Используйте vLLM или TensorRT-LLM — они решают проблему на…
answerКак вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма?
…OpenAI GPT‑4o‑mini | | Конфиденциальные данные | Self‑hosted LLM (внутренняя инфраструктура) | Реализация ```python class Router: def __init__(self, provider_pool…
answerКак делать canary deployment для промптов (5% трафика)?
…Рекомендуемый набор: | Метрика | Где считать | Порог auto-rollback | |---------|-------------|---------------------| | **Faithfulness** (доля ответов, не противоречащих контексту) | LLM-as-judge (RAGAS, Prometheus) | ухудшение…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Полный production агент
…Вместо коммерческого [[Вики/LLM\|LLM API]] используем локальную [[Вики/model\|модель]] ([[Вики/LLM\|Ollama]] с `[[Вики/llama3.21b\|llama3.2…
answerКак вы измеряете стоимость агента в production (не только токены)?
…В отличие от простого LLM-запроса, [[Вики/AI agents\|агент]] может совершать несколько раундов вызова [[Вики/LLM\|LLM]], вызывать инструменты…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить correlation метрик (граф зависимостей retrieval → generation latency)
…Развернуть [[Вики/RAG\|RAG-пайплайн]] на локальной машине (например, на базе [[Вики/agent\|LangChain]] + [[Вики/LLM\|Ollama]] + [[Вики/Chroma\|ChromaDB…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить prompt regression suite
…агента | | Инструмент для сравнения ответов | `sentence-transformers` / LLM-judge (любая модель) | | Инфраструктура для алертов | `logging`, `requests` для Telegram/Slack или…
answerКакие есть стратегии распределённого кэширования для LLM (Redis Cluster, Memcached, Hazelcast)?
…Применение в [[Вики/GPT-4o\|LLM]]: если вся инфраструктура на Java/Spring, [[Вики/Hazelcast\|Hazelcast]] можно использовать для кэширования ответов…
answerКак вы делаете blue-green deployment для RAG системы с zero downtime?
…Для RAG-системы это особенно важно, так как обновление компонентов (эмбеддер, [[Вики/qdrant-client\|векторная БД]], [[Вики/LLM\|LLM]]) не…
answerЧто такое Path-level evaluation для Agentic RAG и чем оно лучше token-level?
…Определить эталонные траектории — вручную или с помощью LLM-as-a-judge (попросить LLM сгенерировать идеальный план). 3. Сравнить фактическую и…
answerКогда DSPy *не* подходит? Назовите 3 сценария.
…Вместо того чтобы вручную подбирать формулировки для [[Вики/LLM\|LLM]], разработчик описывает сигнатуру (входы/выходы) модуля, а [[Вики/DSPy\|DSPy…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RLAIF для генерации предпочтений
…Цель задачи Разработать [[Вики/пайплайн\|пайплайн]] [[Вики/RLAIF\|RLAIF]] ([[Вики/RLAIF\|Reinforcement Learning from AI Feedback]]), в котором LLM-учитель…
answerКак вы проектируете canary deployment для LLM модели?
…myregistry/llm:v2 ports: - containerPort: 8080 ``` ### 3.3 Инфраструктура для роутинга Для [[Вики/canary deployment\|canary]] требуется [[Вики/Load balancer…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить autoscaling для LLM сервера
…к LLM-серверу | | Инфраструктура as Code | Helm / YAML манифесты | Воспроизводимость конфигурации | --- ## 4. Этапы выполнения ### Этап 1: Развёртывание LLM-сервера и…
answerЧто такое Semantic Kernel и чем отличается от LangChain?
…Он позволяет разработчикам объединять [[Вики/LLM\|LLM]], [[Вики/промпты\|подсказки]] ([[Вики/промпт агента\|prompts]]) и обычный [[Вики/Code\|код]] в…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Спроектировать structured logging для LLM
…с LLM (например, инференс через OpenAI API или локальную модель) | Собственный pet-проект или заглушка (см. симуляцию) | | Инфраструктура для сбора…
answerКак тест-тайм компьютинг меняет MLOps?
…MLOps-инфраструктура должна собирать метрики по каждому запросу: | Метрика | Описание | Единица измерения | |---------|----------|-------------------| | [[Вики/cost per request\|Cost per query]] | Стоимость…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать роутер запросов между Groq и GPT-4 с делегированием по сложности
…2. [[Вики/LLM\|GPT-4]] — вместо платного [[Вики/LLM\|GPT-4]] использовать `[[Вики/LLM\|gpt-4o-mini]]` (доступен через [[Вики…