English translation is not available yet. Showing Russian content.
TGI
TGI
Определение
Сервер инференса от Hugging Face для LLM с поддержкой streaming, continuous batching и отмены операций. Оптимизирован для production-сред и используется как альтернатива vLLM.
Где встречается
- 7. Как вы уменьшаете latency RAG-системы (время ответа)
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 62. Какие метрики вы мониторите для LLM в production
- 72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
- 83. Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)
- 89. Как вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма
- 206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
- 210. Что такое chunked prefill и зачем он нужен
- 211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 220. Как вы выбираете между online и batch инференсом для LLM
- 244. Как вы проектируете backpressure в LLM serving системе
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 409. Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes
- 432. Как работает FlashAttention-3 технически Чем отличается от FA2
- 437. Почему decode stage плохо batchится
- 446. Что такое chunked prefill и зачем он нужен
- 447. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
- 453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 455. Как вы выбираете между online и batch инференсом для LLM
- 697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)
- 825. Что такое autoscaling inference и как его настроить
- 836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)
- 842. Как работает prefix caching и prompt caching у провайдеров
- 846. Как дебажить memory fragmentation в LLM сервере
- Практика
- 800+ вопросов
- 135. Рассчитать ROI от fine-tuning
- 206. Развернуть vLLM vs TGI, сравнить throughput
- 210. Сравнить GPTQ vs AWQ на reasoning задачах