FastAPI

Определение

Асинхронный веб-фреймворк на Python для создания API с низкой задержкой, используется в HITL, streaming и других сценариях.

Где встречается

64. Как вы обеспечиваете низкую задержку (500ms) для LLM
65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)
73. Как вы логируете все вызовы LLM для аудита
80. Какие 3 книгикурса вы рекомендуете по production LLM
81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG
83. Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)
88. Как бы вы добавили отмену (cancellation) для длительных LLM операций
89. Как вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма
90. Как вы проектируете API для внешних систем, использующих вашу LLM
95. Как вы храните историю изменений промптов (prompt lineage)
129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
146. Как вы обеспечиваете «человека в петле» (HITL) для критических действий агента
213. Что такое Guided Decoding и как оно связано с JSON schema
214. Как вы реализуете streaming в production с учетом network limitations
220. Как вы выбираете между online и batch инференсом для LLM
237. Что такое circuit breaker и как он применяется к LLM API вызовам
239. Что такое idempotency в контексте LLM API и зачем она нужна
241. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user
243. Как вы делаете blue-green deployment для RAG системы с zero downtime
247. Как вы проектируете multi-region active-active для LLM API
250. Как вы делаете health check для LLM сервера с учетом модели (не только процесс)
253. Как вы делаете асинхронную обработку long-running (30s) LLM задач
264. Как вы делаете backfill эмбеддингов при смене embedding модели
265. Как вы проектируете data lineage для RAG (от документа к ответу)
269. Как вы обрабатываете streaming данные для real-time RAG
359. Как вы защищаете multi-agent систему от вредоносного агента
381. Как вы определяете SLO и SLA для LLM сервиса
382. Как вы проектируете canary deployment для LLM модели
383. Что такое error budget для AI качества и как его считать
391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
406. Что такое idempotency в контексте LLM API и зачем она нужна
407. Как вы проектируете dead letter queue для failed LLM инференс запросов
408. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user
409. Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes
410. Как вы делаете blue-green deployment для RAG системы с zero downtime
411. Как вы проектируете backpressure в LLM serving системе
413. Что такое sidecar pattern для LLM observability и как его реализовать
414. Как вы проектируете multi-region active-active для LLM API
416. Как вы делаете load shedding при перегрузке LLM сервера
418. Как вы деплоите LLM на spot instances в облаке

FastAPI

FastAPI

Определение

Где встречается

Навигация

FastAPI

FastAPI

Определение

Где встречается

Навигация