中文翻译暂不可用,显示俄语原文。
p50
p50
Определение
Медианная задержка (50-й процентиль) — значение времени отклика, ниже которого находится 50% измерений. Используется для оценки типичной производительности системы.
Где встречается
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 62. Какие метрики вы мониторите для LLM в production
- 64. Как вы обеспечиваете низкую задержку (500ms) для LLM
- 73. Как вы логируете все вызовы LLM для аудита
- 75. Что такое structured output constrained decoding и зачем это нужно
- 161. Как вы измеряете эффективность speculative decoding
- 179. Как вы AB тестируете агентов в production
- 192. Как вы оцениваете качество language representation для задачи
- 201. Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 219. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
- 220. Как вы выбираете между online и batch инференсом для LLM
- 222. Что такое IVF (Inverted File Index) и как он сравнивается с HNSW по speedquality
- 225. Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные
- 229. Как вы измеряем recall@k для ANN индекса и какой порог acceptable
- 234. Что такое Learned Index Structures for ANN Новые подходы 2025-2026.
- 624. Как вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)
- 639. Как вы делаете model selection для long context (какая модель лучше держит 100k+)
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
- 707. Как работает asynchronous execution на Hopper (copy engine vs compute)
- 708. Что такое MIG (Multi-Instance GPU) и как настроить для разных LLM
- 710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
- 747. Что такое AdmissionController в Harness и зачем он нужен
- 768. Что такое «ротация агентов» (load balancing между агентами)
- 775. Что такое Cost Engineering для LLM-систем
- 776. Как считать TCO (Total Cost of Ownership) для RAGAgent системы
- 779. Что такое «token budget» для агента и как его выставлять
- Практика
- 800+ вопросов
- 2. Написать RDMA-читалку для KV cache
- 13. Сравнить S3 vs EBS для checkpoint'ов 70B
- 15. Настроить tiered storage (hotwarmcold)
- 16. Реализовать compaction в векторной БД
- 24. Настроить RED metrics для LLM
- 27. Настроить tail latency amplification мониторинг
- 30. Настроить correlation между метриками
- 37. Реализовать sharded cache на 10+ нод
- 38. Настроить TTL для semantic cache
- 40. Настроить hot shard detection