Quantization

Определение

Снижение точности представления чисел (весов или активаций) модели для уменьшения её размера и ускорения инференса. Применяется как для сжатия эмбеддингов в RAG, так и для оптимизации LLM на этапе вывода.

Где встречается

7. Как вы уменьшаете latency RAG-системы (время ответа)
15. Какие embedding-модели вы использовали и почему
61. Как вы разворачиваете LLM в production (self-hosted)
64. Как вы обеспечиваете низкую задержку (500ms) для LLM
70. Как вы снижаете стоимость LLM в production на 50%+
77. Как вы оптимизируете embedding генерацию для большого количества документов
78. Какие LLM для русского языка вы используете
80. Какие 3 книгикурса вы рекомендуете по production LLM
87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
159. Как speculative decoding взаимодействует с KV cache
164. Какие trade-offs между разными архитектурами speculative decoding
202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
210. Что такое chunked prefill и зачем он нужен
216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
220. Как вы выбираете между online и batch инференсом для LLM
254. Как вы проектируете disaster recovery для LLM системы при сбое региона
279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
303. Как работают Tensor Cores в H100B200 и для чего они нужны
305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
307. Как PCIe bottleneck проявляется в multi-GPU инференсе
310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
311. Что такое CUDA graphs и как они ускоряют LLM инференс
312. Как работает FP8 quantization на H100 (Transformer Engine)
317. Что такое MLIR и как он используется в IREETensorRT-LLM
318. TensorRT-LLM vs vLLM — сравнение для production deployment.
320. Что такое ONNX Runtime и когда он выгоден для LLM
324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
364. Как вы строите real-time voice agent с latency 500ms
370. Как вы проектируете систему для real-time video understanding (поток с камер)
423. Как работает tensor parallelism для LLM training Чем отличается от инференса
432. Как работает FlashAttention-3 технически Чем отличается от FA2
433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
435. Почему MoE (Mixture of Experts) быстрее dense модели при инференсе
437. Почему decode stage плохо batchится
441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.

Quantization

Quantization

Определение

Где встречается

Навигация

Quantization

Quantization

Определение

Где встречается

Навигация