Redis

Определение

In-memory хранилище данных, часто используемое как кэш для частых запросов, брокер сообщений (Pub/Sub) и для хранения краткосрочной памяти агентов. Обеспечивает низкую задержку и высокую производительность.

Где встречается

7. Как вы уменьшаете latency RAG-системы (время ответа)
9. Как вы обновляете документы в существующей RAG-системе
43. Как спроектировать агента, который может выполнять цепочку из 5-10 действий
51. Как вы передаёте контекст между несколькими агентами (multi-agent system)
56. Как вы делаете агента отказоустойчивым (graceful degradation)
64. Как вы обеспечиваете низкую задержку (500ms) для LLM
65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)
70. Как вы снижаете стоимость LLM в production на 50%+
77. Как вы оптимизируете embedding генерацию для большого количества документов
81. Как бы вы спроектировали систему для 1000 одновременных пользователей чат-бота с RAG
87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
88. Как бы вы добавили отмену (cancellation) для длительных LLM операций
90. Как вы проектируете API для внешних систем, использующих вашу LLM
139. Как вы оцениваете cost-effectiveness LLM-пайплайна
165. Как тест-тайм компьютинг меняет MLOps
205. Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.
220. Как вы выбираете между online и batch инференсом для LLM
239. Что такое idempotency в контексте LLM API и зачем она нужна
243. Как вы делаете blue-green deployment для RAG системы с zero downtime
245. Как вы делаете cache invalidation для semantic cache при обновлении знаний
248. Что такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать
251. Как вы деплоите LLM на spot instances в облаке
253. Как вы делаете асинхронную обработку long-running (30s) LLM задач
262. Как вы проектируете feature store для ML фичей, используемых LLM
264. Как вы делаете backfill эмбеддингов при смене embedding модели
269. Как вы обрабатываете streaming данные для real-time RAG
359. Как вы защищаете multi-agent систему от вредоносного агента
384. Как вы проводим chaos engineering для RAG системы
389. Как вы делаем disaster recovery с RPO 1 минута
403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
406. Что такое idempotency в контексте LLM API и зачем она нужна
410. Как вы делаете blue-green deployment для RAG системы с zero downtime
416. Как вы делаете load shedding при перегрузке LLM сервера
418. Как вы деплоите LLM на spot instances в облаке
419. Что такое Kafka compaction для логов LLM взаимодействий
421. Как вы проектируете disaster recovery для LLM системы при сбое региона
454. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
509. Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)
517. Как вы проектируете feature store для ML фичей, используемых LLM
533. Как вы обрабатываете real-time фичи для LLM (например, текущий сток товара)

Redis

Redis

Определение

Где встречается

Навигация

Redis

Redis

Определение

Где встречается

Навигация