Contents
Questions
Practice
Wiki
Community materials
Tests
Search

✈Telegram @ai_varo

…

Contents/Wiki/TGI

English translation is not available yet. Showing Russian content.

TGI

TGI

Определение

Сервер инференса от Hugging Face для LLM с поддержкой streaming, continuous batching и отмены операций. Оптимизирован для production-сред и используется как альтернатива vLLM.

Где встречается

7. Как вы уменьшаете latency RAG-системы (время ответа)
61. Как вы разворачиваете LLM в production (self-hosted)
62. Какие метрики вы мониторите для LLM в production
72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
83. Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)
89. Как вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма
206. Что такое KV cache reuse в multi-turn диалогах и как его реализовать
210. Что такое chunked prefill и зачем он нужен
211. Как вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)
216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
220. Как вы выбираете между online и batch инференсом для LLM
244. Как вы проектируете backpressure в LLM serving системе
300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
409. Как вы проектируете graceful shutdown для LLM serving pod в Kubernetes
432. Как работает FlashAttention-3 технически Чем отличается от FA2
437. Почему decode stage плохо batchится
446. Что такое chunked prefill и зачем он нужен
447. Как работает scheduler в vLLM Какие алгоритмы выбора запросов
453. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
455. Как вы выбираете между online и batch инференсом для LLM
697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)
825. Что такое autoscaling inference и как его настроить
836. Почему vLLM быстрее TGI (Hugging Face Text Generation Inference)
842. Как работает prefix caching и prompt caching у провайдеров
846. Как дебажить memory fragmentation в LLM сервере
Практика
800+ вопросов
135. Рассчитать ROI от fine-tuning
206. Развернуть vLLM vs TGI, сравнить throughput
210. Сравнить GPTQ vs AWQ на reasoning задачах

Навигация

Индекс терминов
Индекс разборов
Оглавление