p50

Определение

Медианная задержка (50-й процентиль) — значение времени отклика, ниже которого находится 50% измерений. Используется для оценки типичной производительности системы.

Где встречается

61. Как вы разворачиваете LLM в production (self-hosted)
62. Какие метрики вы мониторите для LLM в production
64. Как вы обеспечиваете низкую задержку (500ms) для LLM
73. Как вы логируете все вызовы LLM для аудита
75. Что такое structured output constrained decoding и зачем это нужно
161. Как вы измеряете эффективность speculative decoding
179. Как вы AB тестируете агентов в production
192. Как вы оцениваете качество language representation для задачи
201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
219. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
220. Как вы выбираете между online и batch инференсом для LLM
222. Что такое IVF (Inverted File Index) и как он сравнивается с HNSW по speedquality
225. Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные
229. Как вы измеряем recall@k для ANN индекса и какой порог acceptable
234. Что такое Learned Index Structures for ANN Новые подходы 2025-2026.
624. Как вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)
639. Как вы делаете model selection для long context (какая модель лучше держит 100k+)
706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
707. Как работает asynchronous execution на Hopper (copy engine vs compute)
708. Что такое MIG (Multi-Instance GPU) и как настроить для разных LLM
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
747. Что такое AdmissionController в Harness и зачем он нужен
768. Что такое «ротация агентов» (load balancing между агентами)
775. Что такое Cost Engineering для LLM-систем
776. Как считать TCO (Total Cost of Ownership) для RAGAgent системы
779. Что такое «token budget» для агента и как его выставлять
Практика
800+ вопросов
2. Написать RDMA-читалку для KV cache
13. Сравнить S3 vs EBS для checkpoint'ов 70B
15. Настроить tiered storage (hotwarmcold)
16. Реализовать compaction в векторной БД
24. Настроить RED metrics для LLM
27. Настроить tail latency amplification мониторинг
30. Настроить correlation между метриками
37. Реализовать sharded cache на 10+ нод
38. Настроить TTL для semantic cache
40. Настроить hot shard detection

p50

p50

Определение

Где встречается

Навигация

p50

p50

Определение

Где встречается

Навигация