AWQ

Определение

Метод квантизации, анализирующий важность весов по активациям и сохраняющий 1% критичных весов в FP16 для лучшего качества на рассуждающих задачах.

Где встречается

61. Как вы разворачиваете LLM в production (self-hosted)
64. Как вы обеспечиваете низкую задержку (500ms) для LLM
70. Как вы снижаете стоимость LLM в production на 50%+
87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
220. Как вы выбираете между online и batch инференсом для LLM
317. Что такое MLIR и как он используется в IREETensorRT-LLM
318. TensorRT-LLM vs vLLM — сравнение для production deployment.
403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
444. Почему 4-bit inference иногда медленнее 8-bit
482. Как работает QLoRA (Quantized LoRA) для training
666. Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать
847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)
Практика
800+ вопросов
206. Развернуть vLLM vs TGI, сравнить throughput
209. Настроить AWQ quantization для LLM
210. Сравнить GPTQ vs AWQ на reasoning задачах
224. vLLM кластер на 4 GPU

AWQ

AWQ

Определение

Где встречается

Навигация