GPTQ

Определение

Метод квантизации весов LLM для GPU, typically 2–4 бита, с оптимизацией через Hessian. Требует калибровки на датасете, обеспечивает высокое качество (до 98%) и ускорение инференса.

Где встречается

61. Как вы разворачиваете LLM в production (self-hosted)
64. Как вы обеспечиваете низкую задержку (500ms) для LLM
70. Как вы снижаете стоимость LLM в production на 50%+
87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
220. Как вы выбираете между online и batch инференсом для LLM
317. Что такое MLIR и как он используется в IREETensorRT-LLM
318. TensorRT-LLM vs vLLM — сравнение для production deployment.
403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
444. Почему 4-bit inference иногда медленнее 8-bit
482. Как работает QLoRA (Quantized LoRA) для training
666. Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать
847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)
Практика
800+ вопросов
209. Настроить AWQ quantization для LLM
210. Сравнить GPTQ vs AWQ на reasoning задачах
224. vLLM кластер на 4 GPU

GPTQ

GPTQ

Определение

Где встречается

Навигация