Redis
Redis
Определение
In-memory хранилище данных, часто используемое как кэш для частых запросов, брокер сообщений (Pub/Sub) и для хранения краткосрочной памяти агентов. Обеспечивает низкую задержку и высокую производительность.
Где встречается
- 7. Как вы уменьшаете latency RAG-системы (время ответа)
- 9. Как вы обновляете документы в существующей RAG-системе
- 43. Как спроектировать агента, который может выполнять цепочку из 5-10 действий
- 51. Как вы передаёте контекст между несколькими агентами (multi-agent system)
- 56. Как вы делаете агента отказоустойчивым (graceful degradation)
- 64. Как вы обеспечиваете низкую задержку (500ms) для LLM
- 65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)
- 70. Как вы снижаете стоимость LLM в production на 50%+
- 77. Как вы оптимизируете embedding генерацию для большого количества документов
- 81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG
- 87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
- 88. Как бы вы добавили отмену (cancellation) для длительных LLM операций
- 90. Как вы проектируете API для внешних систем, использующих вашу LLM
- 139. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 165. Как тест-тайм компьютинг меняет MLOps
- 205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
- 220. Как вы выбираете между online и batch инференсом для LLM
- 239. Что такое idempotency в контексте LLM API и зачем она нужна
- 243. Как вы делаете blue-green deployment для RAG системы с zero downtime
- 245. Как вы делаете cache invalidation для semantic cache при обновлении знаний
- 248. Что такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать
- 251. Как вы деплоите LLM на spot instances в облаке
- 253. Как вы делаете асинхронную обработку long-running (30s) LLM задач
- 262. Как вы проектируете feature store для ML фичей, используемых LLM
- 264. Как вы делаете backfill эмбеддингов при смене embedding модели
- 269. Как вы обрабатываете streaming данные для real-time RAG
- 359. Как вы защищаете multi-agent систему от вредоносного агента
- 384. Как вы проводим chaos engineering для RAG системы
- 389. Как вы делаем disaster recovery с RPO 1 минута
- 403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
- 406. Что такое idempotency в контексте LLM API и зачем она нужна
- 410. Как вы делаете blue-green deployment для RAG системы с zero downtime
- 416. Как вы делаете load shedding при перегрузке LLM сервера
- 418. Как вы деплоите LLM на spot instances в облаке
- 419. Что такое Kafka compaction для логов LLM взаимодействий
- 421. Как вы проектируете disaster recovery для LLM системы при сбое региона
- 454. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
- 509. Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)
- 517. Как вы проектируете feature store для ML фичей, используемых LLM
- 533. Как вы обрабатываете real-time фичи для LLM (например, текущий сток товара)