Поиск

wikicalibration dataset
# calibration dataset ## Определение Небольшой набор данных (обычно 128–1024 примера), используемый для подбора параметров квантизации (GPTQ, AWQ) с целью минимизации…
answerКак работает quantization-aware scaling в AWQ для защиты важных весов?
…Как работает quantization-aware scaling в AWQ для защиты важных весов? ## Краткий тезис **[[Вики/AWQ\|AWQ]] ([[Вики/AWQ\|Activation-aware…
wikiPost-training quantization
# Post-training quantization ## Определение Метод квантизации модели после завершения обучения без дополнительного fine-tuning; включает GPTQ, AWQ и выполняется на…
answerЧем AWQ отличается от GPTQ?
…Чем AWQ отличается от GPTQ? ## Краткий тезис [[Вики/GPTQ\|GPTQ]] и [[Вики/AWQ\|AWQ]] — это два популярных алгоритма пост-тренировочной…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настройка AWQ квантизации для LLM
…Настройка AWQ квантизации для LLM ## 1. Цель задачи Научиться применять метод [[Вики/AWQ\|AWQ]] ([[Вики/AWQ\|Activation-aware Weight Quantization…
wikiAWQ
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[210. Сравнить GPTQ vs AWQ на reasoning задачах|210…
wikiauto-gptq
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[210. Сравнить GPTQ vs AWQ на reasoning задачах|210…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить GPTQ vs AWQ на reasoning задачах
…128}) model_awq.save_pretrained("./models/awq-4bit") tokenizer.save_pretrained("./models/awq-4bit") ``` 3. Измерить - Размер модели на диске…
answerGGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска?
…лучший trade-off quality/speed на GPU AWQ — эволюция GPTQ. Основная идея: **не все веса одинаково важны**. AWQ анализирует активации…
wikiAutoGPTQForCausalLM
# AutoGPTQForCausalLM ## Определение Класс Hugging Face для загрузки квантизированных моделей в формате AWQ, используемый для эффективного инференса. ## Где встречается - [[209. Настроить…
wikiexllamav2
# exllamav2 ## Определение Inference-фреймворк с поддержкой квантизации AWQ, обеспечивающий высокую производительность. ## Где встречается - [[210. Сравнить GPTQ vs AWQ на reasoning…
wikiGroup size
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
wikidamp_percent
# damp_percent ## Определение Параметр регуляризации в методе квантования AWQ, влияющий на точность сжатия модели. Регулирует компромисс между размером и качеством…
wikiAutoAWQ
# AutoAWQ ## Определение Библиотека для 4-битной квантизации моделей с использованием метода AWQ для уменьшения размера и ускорения инференса. ## Где встречается…
wikiMarlin kernel
# Marlin kernel ## Определение Оптимизированное CUDA-ядро для ускорения инференса квантизированных моделей (AWQ, GPTQ) на GPU. ## Где встречается - [[443. GGUF vs…
wikiHQQ
# HQQ ## Определение Метод квантизации моделей, не требующий калибровочных данных и обеспечивающий качество, сопоставимое с AWQ, при снижении вычислительных затрат. ## Где…
wikiSalient weights
# Salient weights ## Определение В контексте квантизации AWQ — около 1% весов с наибольшим влиянием на активации, которые сохраняются в FP16 для…
answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…AWQ [[Вики/AWQ\|AWQ]] (Activation‑aware [[Вики/Quantization\|Weight Quantization]]) — метод, который определяет «важные» веса ([[Вики/Salient weights\|salient weights…
wikiGPTQ
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[210. Сравнить GPTQ vs AWQ на reasoning задачах|210…
wikiNormalFloat4
…Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[209. Настроить AWQ…
wikirelative degradation
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiExLlama
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
wikiGGUF
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
wikiAQLM
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
wikiLLM.int8
…Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] ## Навигация - [[00. Индекс…
wikilm-eval-harness
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiQuIP
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
answerКак сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?
…адаптивная квантизация на основе значимости каналов [[Вики/AWQ\|AWQ]] ([[Вики/AWQ\|Adaptive Weight Quantization]]) — метод, который анализирует [[Вики/Topics\|каналы…
wikilm_evaluation_harness
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[224. vLLM кластер на 4…
wikiQwen2.5-7B
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
wikidevice_map
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[215. Настроить expert parallelism для Mixtral|215. Настроить expert…
wikiPass@1
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiQuantization-aware training
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikillama.cpp
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
wikibitsandbytes
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
wikiGPU memory
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[235. LoRA для function calling|235. LoRA для function…
wikiMath
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiзащита важных весов
…Используется в AWQ. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
wikiquantization-aware scaling
# quantization-aware scaling ## Определение Техника подбора масштабирующих коэффициентов (scaling factors) для минимизации ошибки при квантизации, используемая в методе AWQ. Позволяет…
wikiOffloading
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
wikiHumanEval
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[272. Настроить data augmentation для…
wikiGSM8K
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
wikitokenizer
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[212. Настроить chunked prefill для long context|212. Настроить…
answerКак вы деплоите LLM с TensorRT-LLM в production?
…Hugging Face | | [[Вики/Quantization\|Квантизация]] | FP8, INT4, AWQ | AWQ, GPTQ | GPTQ, AWQ | | Простота деплоя | Средняя (нужна сборка engine) | Высокая (один…
wikiMistral
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[224. vLLM кластер на 4…
wikiCUDA
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
wikiOOM
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[214. Реализовать FP8 инференс на H100|214. Реализовать FP8…
answerКак вы разворачиваете LLM в production (self-hosted)?
…точное пост-обучение, требует калибровочного датасета, высокая [[Вики/accuracy\|точность]]. - **[[Вики/AWQ\|AWQ]] ([[Вики/AWQ\|Activation-aware Weight Quantization]])**: учитывает…
answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…Требует QAT или продвинутых методов (например, [[Вики/GPTQ\|GPTQ]], [[Вики/AWQ\|AWQ]], [[Вики/GGUF\|GGUF]]). - Размер Модель уменьшается в 4…
wikiTGI
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…