FastAPI
FastAPI
Определение
Асинхронный веб-фреймворк на Python для создания API с низкой задержкой, используется в HITL, streaming и других сценариях.
Где встречается
- 64. Как вы обеспечиваете низкую задержку (500ms) для LLM
- 65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)
- 73. Как вы логируете все вызовы LLM для аудита
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG
- 83. Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)
- 88. Как бы вы добавили отмену (cancellation) для длительных LLM операций
- 89. Как вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма
- 90. Как вы проектируете API для внешних систем, использующих вашу LLM
- 95. Как вы храните историю изменений промптов (prompt lineage)
- 129. Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)
- 146. Как вы обеспечиваете «человека в петле» (HITL) для критических действий агента
- 213. Что такое Guided Decoding и как оно связано с JSON schema
- 214. Как вы реализуете streaming в production с учетом network limitations
- 220. Как вы выбираете между online и batch инференсом для LLM
- 237. Что такое circuit breaker и как он применяется к LLM API вызовам
- 239. Что такое idempotency в контексте LLM API и зачем она нужна
- 241. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user
- 243. Как вы делаете blue-green deployment для RAG системы с zero downtime
- 247. Как вы проектируете multi-region active-active для LLM API
- 250. Как вы делаете health check для LLM сервера с учетом модели (не только процесс)
- 253. Как вы делаете асинхронную обработку long-running (30s) LLM задач
- 264. Как вы делаете backfill эмбеддингов при смене embedding модели
- 265. Как вы проектируете data lineage для RAG (от документа к ответу)
- 269. Как вы обрабатываете streaming данные для real-time RAG
- 359. Как вы защищаете multi-agent систему от вредоносного агента
- 381. Как вы определяете SLO и SLA для LLM сервиса
- 382. Как вы проектируете canary deployment для LLM модели
- 383. Что такое error budget для AI качества и как его считать
- 391. Как вы проектируете агента, который может работать непрерывно (247) без дрейфа поведения
- 406. Что такое idempotency в контексте LLM API и зачем она нужна
- 407. Как вы проектируете dead letter queue для failed LLM инференс запросов
- 408. Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user
- 409. Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes
- 410. Как вы делаете blue-green deployment для RAG системы с zero downtime
- 411. Как вы проектируете backpressure в LLM serving системе
- 413. Что такое sidecar pattern для LLM observability и как его реализовать
- 414. Как вы проектируете multi-region active-active для LLM API
- 416. Как вы делаете load shedding при перегрузке LLM сервера
- 418. Как вы деплоите LLM на spot instances в облаке