Quantization
Quantization
Определение
Снижение точности представления чисел (весов или активаций) модели для уменьшения её размера и ускорения инференса. Применяется как для сжатия эмбеддингов в RAG, так и для оптимизации LLM на этапе вывода.
Где встречается
- 7. Как вы уменьшаете latency RAG-системы (время ответа)
- 15. Какие embedding-модели вы использовали и почему
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 64. Как вы обеспечиваете низкую задержку (500ms) для LLM
- 70. Как вы снижаете стоимость LLM в production на 50%+
- 77. Как вы оптимизируете embedding генерацию для большого количества документов
- 78. Какие LLM для русского языка вы используете
- 80. Какие 3 книгикурса вы рекомендуете по production LLM
- 87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
- 159. Как speculative decoding взаимодействует с KV cache
- 164. Какие trade-offs между разными архитектурами speculative decoding
- 202. Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма
- 210. Что такое chunked prefill и зачем он нужен
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 220. Как вы выбираете между online и batch инференсом для LLM
- 254. Как вы проектируете disaster recovery для LLM системы при сбое региона
- 279. Что такое SwiGLU и почему он используется вместо ReLU в современных LLM
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 303. Как работают Tensor Cores в H100B200 и для чего они нужны
- 305. Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)
- 307. Как PCIe bottleneck проявляется в multi-GPU инференсе
- 310. Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM
- 311. Что такое CUDA graphs и как они ускоряют LLM инференс
- 312. Как работает FP8 quantization на H100 (Transformer Engine)
- 317. Что такое MLIR и как он используется в IREETensorRT-LLM
- 318. TensorRT-LLM vs vLLM — сравнение для production deployment.
- 320. Что такое ONNX Runtime и когда он выгоден для LLM
- 324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
- 362. Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V
- 364. Как вы строите real-time voice agent с latency 500ms
- 370. Как вы проектируете систему для real-time video understanding (поток с камер)
- 423. Как работает tensor parallelism для LLM training Чем отличается от инференса
- 432. Как работает FlashAttention-3 технически Чем отличается от FA2
- 433. Почему KV cache растет линейно с длиной контекста и как это оптимизировать
- 435. Почему MoE (Mixture of Experts) быстрее dense модели при инференсе
- 437. Почему decode stage плохо batchится
- 441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
- 443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.