Поиск
- wikiauto-gptq
# auto-gptq ## Определение Библиотека для применения квантизации GPTQ (4-битной) к моделям LLM в Python. ## Где встречается - [[209. Настроить AWQ…
- wikicalibration dataset
# calibration dataset ## Определение Небольшой набор данных (обычно 128–1024 примера), используемый для подбора параметров квантизации (GPTQ, AWQ) с целью минимизации…
- wikiGPTQ
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- answerЧем AWQ отличается от GPTQ?
…Чем AWQ отличается от GPTQ? ## Краткий тезис [[Вики/GPTQ\|GPTQ]] и [[Вики/AWQ\|AWQ]] — это два популярных алгоритма пост-тренировочной…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить GPTQ vs AWQ на reasoning задачах
…Квантизация GPTQ и AWQ (2–3 часа) Действия 1. [[Вики/GPTQ\|GPTQ]] [[Вики/Quantization\|квантизация]] (4-bit, [[Вики/Group size…
- answerGGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска?
…GGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска? ## Краткий тезис [[Вики/GGUF\|GGUF]], [[Вики/GPTQ\|GPTQ]] и…
- wikiPost-training quantization
# Post-training quantization ## Определение Метод квантизации модели после завершения обучения без дополнительного fine-tuning; включает GPTQ, AWQ и выполняется на…
- wikiExLlama
# ExLlama ## Определение Библиотека для быстрого инференса GPTQ-моделей на GPU, использующая оптимизированные ядра. ## Где встречается - [[443. GGUF vs GPTQ vs…
- wikiMarlin kernel
# Marlin kernel ## Определение Оптимизированное CUDA-ядро для ускорения инференса квантизированных моделей (AWQ, GPTQ) на GPU. ## Где встречается - [[443. GGUF vs…
- wikiQuIP
# QuIP ## Определение Теоретически обоснованный метод квантизации нейросетей, использующий обработку некогерентности для минимизации потерь точности; по качеству превосходит GPTQ. ## Где встречается…
- answerКак сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?
…Это быстрее [[Вики/GPTQ\|GPTQ]]. - Качество: обычно чуть выше, чем [[Вики/GPTQ\|GPTQ]] при тех же 4-bit, особенно на…
- answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…GPTQ [[Вики/GPTQ\|GPTQ]] (Generative Pre‑Trained [[Вики/Transformer\|Transformer]] [[Вики/Quantization\|Quantization]]) — метод пост‑тренировочной квантизации, который использует **[[Вики…
- wikiexllamav2
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiAutoAWQ
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiGGUF
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikiAQLM
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikiLLM.int8
…Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] ## Навигация - [[00. Индекс…
- wikiHQQ
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikiSalient weights
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- answerКак работает quantization-aware scaling в AWQ для защиты важных весов?
…Это позволяет [[Вики/AWQ\|AWQ]] превосходить [[Вики/GPTQ\|GPTQ]] по качеству на задачах рассуждения ([[Вики/Reasoning\|reasoning]]) при том же…
- wikilm_evaluation_harness
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[224. vLLM кластер на 4…
- wikiAWQ
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikiQwen2.5-7B
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiPass@1
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiGroup size
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikillama.cpp
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikibitsandbytes
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikiNormalFloat4
…Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[209. Настроить AWQ…
- wikiHessian
# Hessian ## Определение Матрица вторых производных, используемая в методе квантизации GPTQ для оптимизации весов модели. ## Где встречается - [[800+ вопросов|800+ вопросов…
- wikiMath
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
- answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…GPTQ, AWQ, GGUF Для INT8-квантования LLM существуют специализированные методы: - [[Вики/GPTQ\|GPTQ]] Post-training квантование, основанное на оптимальном округлении…
- wikiOffloading
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikiHumanEval
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[272. Настроить data augmentation для…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настройка AWQ квантизации для LLM
…Загрузить квантизатор из `auto_gptq` с конфигурацией [[Вики/AWQ\|AWQ]]: ```python from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig quantize_config = BaseQuantizeConfig…
- wikiGSM8K
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
- answerПочему 4-bit inference иногда медленнее 8-bit?
…библиотека `GPTQ` (через `auto-gptq`) часто быстрее `bitsandbytes` для 4-bit, потому что использует INT4 с групповым квантованием и оптимизированные…
- wikiMistral
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[224. vLLM кластер на 4…
- wikiCUDA
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- answerКак вы разворачиваете LLM в production (self-hosted)?
…учитывает [[Вики/probability distribution\|распределение]] активаций, часто даёт лучшее качество, чем [[Вики/GPTQ\|GPTQ]]. - [[Вики/bitsandbytes\|bitsandbytes]] (from [[Вики/Hugging…
- wikiTGI
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiTTFT
…Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[849. Что такое…
- wikiTensor parallelism
…Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[849. Что такое…
- wikiPerplexity
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikiTensorRT-LLM
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- answerКак вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов?
…алгоритмов (например, [[Вики/Dynamic Quantization\|Dynamic Quantization]] или [[Вики/GPTQ\|GPTQ]]). | Тип квантизации | Стохастичность | Рекомендация | |----------------|----------------|--------------| | **Static quantization** | Низкая (фиксированные коэффициенты…
- wikiQuantization
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- answerКак вы снижаете стоимость LLM в production на 50%+?
…Инструменты [[Вики/bitsandbytes\|bitsandbytes]], [[Вики/GPTQ\|GPTQ]], [[Вики/AWQ\|AWQ]], [[Вики/llama.cpp\|llama.cpp]]. ## 8. Speculative decoding (спекулятивная генерация…
- answerEAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.\|443]] | Flash Attention | | [[444. Почему 4-bit inference иногда медленнее…
- answerКак вы деплоите LLM с TensorRT-LLM в production?
…Hugging Face | | [[Вики/Quantization\|Квантизация]] | FP8, INT4, AWQ | AWQ, GPTQ | GPTQ, AWQ | | Простота деплоя | Средняя (нужна сборка engine) | Высокая (один…
- answerЧто такое chunked prefill и зачем он нужен?
…GGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска.\|209]] | Что такое continuous batching и как он работает…