English translation is not available yet. Showing Russian content.
AWQ
AWQ
Определение
Метод квантизации, анализирующий важность весов по активациям и сохраняющий 1% критичных весов в FP16 для лучшего качества на рассуждающих задачах.
Где встречается
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 64. Как вы обеспечиваете низкую задержку (500ms) для LLM
- 70. Как вы снижаете стоимость LLM в production на 50%+
- 87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
- 157. Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)
- 220. Как вы выбираете между online и batch инференсом для LLM
- 317. Что такое MLIR и как он используется в IREETensorRT-LLM
- 318. TensorRT-LLM vs vLLM — сравнение для production deployment.
- 403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.
- 441. EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.
- 443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
- 444. Почему 4-bit inference иногда медленнее 8-bit
- 482. Как работает QLoRA (Quantized LoRA) для training
- 666. Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать
- 847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)
- Практика
- 800+ вопросов
- 206. Развернуть vLLM vs TGI, сравнить throughput
- 209. Настроить AWQ quantization для LLM
- 210. Сравнить GPTQ vs AWQ на reasoning задачах
- 224. vLLM кластер на 4 GPU