Поиск

wikiQoS
# QoS ## Определение Метрики качества обслуживания в production LLM, включающие приоритизацию трафика и управление нагрузкой для обеспечения стабильной работы. ## Где встречается…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить backpressure в ingestion
…Задача]] позволяет отработать паттерн «ограниченный [[Вики/краткосрочная память\|буфер]] + управление нагрузкой» — обязательный элемент production-систем. Ключевой результат Сервис [[Вики/indexing…
answerЗачем нужен embedding-as-a-service и когда вы его используете?
…Его основная цель — централизовать вычислительную нагрузку и управление моделями эмбеддингов, позволяя нескольким приложениям использовать один и тот же сервис без…
answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Преимущества и недостатки continuous batching | Преимущества | Недостатки | |--------------|------------| | Высокий throughput — GPU постоянно загружен, батч максимально плотный. | Сложность реализации — требуется управление динамическим…
answerКак вы делаете blue-green deployment для RAG системы с zero downtime?
…blue` | | [[Вики/helm\|Helm]] | Управление чартами | Параметр `active.environment` в values.yaml | | [[Вики/CICD\|ArgoCD]] | GitOps-доставка | Автоматическое переключение при…
answerКак проектировать graceful degradation при отказе LLM API?
…830 | Кэширование в RAG-системах | | 831 | Rate limiting и управление нагрузкой | | 833 | Мониторинг и observability в Agentic RAG | | 834 | Обеспечение…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить GPU scheduling для multi-tenant
…Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | Контейнеризация | Docker, Kubernetes (kind/minikube) | Оркестрация подов | | GPU-управление | NVIDIA GPU Operator, NVIDIA Container Toolkit…
answerКак вы переносите агента из прототипа в production (MLOps)?
…проверяем, сколько одновременных запросов выдерживает агент под нагрузкой (используем locust, k6). --- ## 4. Контейнеризация и FastAPI wrapper Прототип агента обычно запускается…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить high-cardinality metrics в VictoriaMetrics
…vegeta`, `wrk` | Проверка производительности VM под нагрузкой | | Инструментарий | `curl`, `jq`, `docker-compose` | Управление и дебаг | --- ## 4. Этапы выполнения ### Этап 1…
answerКак тестировать fallback и graceful degradation?
…об ошибке ([[Вики/fallback model\|graceful degradation]]), либо передает управление человеку ([[Вики/fallback model\|fallback]]). ## 1. Определения: Fallback и Graceful…
answerКак вы измеряете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
…Вы узнаете, как ведёт себя модель под нагрузкой, и на что влияет длина промпта. --- ## 12. Связь с другими вопросами | Вопрос…
answerКак обрабатывать late-arriving data в ingestion?
…ручного вмешательства | | **Backpressure** | Ingestion-сервис не справляется с пиковой нагрузкой и очередь растёт | | **Eventual consistency** | В распределённых базах (Cassandra, DynamoDB…
answerКак дебажить memory fragmentation в LLM сервере?
…Сравнение с baseline — запускаем на тестовом стенде с той же нагрузкой, но без фрагментации (например, сразу после рестарта). Сравниваем `memory…
answerЧто такое end-to-end backpressure в LLM пайплайне и как его реализовать?
…управление потоком | Сложность реализации, зависимость от протокола | gRPC `FlowControl`, async streaming | | **Явный backpressure (семафоры)** | Плавное снижение нагрузки под нагрузкой | Требует…
answerLangChain vs LlamaIndex vs Haystack — что выберете и почему?
…Выбирайте Haystack, если: - Ваша система будет работать под нагрузкой (100+ RPS). - Вам нужна полная прозрачность каждого шага без скрытых вызовов…