Поиск
- wikicalibration dataset
# calibration dataset ## Определение Небольшой набор данных (обычно 128–1024 примера), используемый для подбора параметров квантизации (GPTQ, AWQ) с целью минимизации…
- answerКак работает quantization-aware scaling в AWQ для защиты важных весов?
…Как работает quantization-aware scaling в AWQ для защиты важных весов? ## Краткий тезис **[[Вики/AWQ\|AWQ]] ([[Вики/AWQ\|Activation-aware…
- wikiPost-training quantization
# Post-training quantization ## Определение Метод квантизации модели после завершения обучения без дополнительного fine-tuning; включает GPTQ, AWQ и выполняется на…
- answerЧем AWQ отличается от GPTQ?
…Чем AWQ отличается от GPTQ? ## Краткий тезис [[Вики/GPTQ\|GPTQ]] и [[Вики/AWQ\|AWQ]] — это два популярных алгоритма пост-тренировочной…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настройка AWQ квантизации для LLM
…Настройка AWQ квантизации для LLM ## 1. Цель задачи Научиться применять метод [[Вики/AWQ\|AWQ]] ([[Вики/AWQ\|Activation-aware Weight Quantization…
- wikiAWQ
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[210. Сравнить GPTQ vs AWQ на reasoning задачах|210…
- wikiauto-gptq
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[210. Сравнить GPTQ vs AWQ на reasoning задачах|210…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить GPTQ vs AWQ на reasoning задачах
…128}) model_awq.save_pretrained("./models/awq-4bit") tokenizer.save_pretrained("./models/awq-4bit") ``` 3. Измерить - Размер модели на диске…
- answerGGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска?
…лучший trade-off quality/speed на GPU AWQ — эволюция GPTQ. Основная идея: **не все веса одинаково важны**. AWQ анализирует активации…
- wikiAutoGPTQForCausalLM
# AutoGPTQForCausalLM ## Определение Класс Hugging Face для загрузки квантизированных моделей в формате AWQ, используемый для эффективного инференса. ## Где встречается - [[209. Настроить…
- wikiexllamav2
# exllamav2 ## Определение Inference-фреймворк с поддержкой квантизации AWQ, обеспечивающий высокую производительность. ## Где встречается - [[210. Сравнить GPTQ vs AWQ на reasoning…
- wikiGroup size
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikidamp_percent
# damp_percent ## Определение Параметр регуляризации в методе квантования AWQ, влияющий на точность сжатия модели. Регулирует компромисс между размером и качеством…
- wikiAutoAWQ
# AutoAWQ ## Определение Библиотека для 4-битной квантизации моделей с использованием метода AWQ для уменьшения размера и ускорения инференса. ## Где встречается…
- wikiMarlin kernel
# Marlin kernel ## Определение Оптимизированное CUDA-ядро для ускорения инференса квантизированных моделей (AWQ, GPTQ) на GPU. ## Где встречается - [[443. GGUF vs…
- wikiHQQ
# HQQ ## Определение Метод квантизации моделей, не требующий калибровочных данных и обеспечивающий качество, сопоставимое с AWQ, при снижении вычислительных затрат. ## Где…
- wikiSalient weights
# Salient weights ## Определение В контексте квантизации AWQ — около 1% весов с наибольшим влиянием на активации, которые сохраняются в FP16 для…
- answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…AWQ [[Вики/AWQ\|AWQ]] (Activation‑aware [[Вики/Quantization\|Weight Quantization]]) — метод, который определяет «важные» веса ([[Вики/Salient weights\|salient weights…
- wikiGPTQ
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[210. Сравнить GPTQ vs AWQ на reasoning задачах|210…
- wikiNormalFloat4
…Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[209. Настроить AWQ…
- wikirelative degradation
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiExLlama
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikiGGUF
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikiAQLM
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikiLLM.int8
…Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] ## Навигация - [[00. Индекс…
- wikilm-eval-harness
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiQuIP
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- answerКак сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?
…адаптивная квантизация на основе значимости каналов [[Вики/AWQ\|AWQ]] ([[Вики/AWQ\|Adaptive Weight Quantization]]) — метод, который анализирует [[Вики/Topics\|каналы…
- wikilm_evaluation_harness
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[224. vLLM кластер на 4…
- wikiQwen2.5-7B
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikidevice_map
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[215. Настроить expert parallelism для Mixtral|215. Настроить expert…
- wikiPass@1
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiQuantization-aware training
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikillama.cpp
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikibitsandbytes
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikiGPU memory
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[235. LoRA для function calling|235. LoRA для function…
- wikiMath
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiзащита важных весов
…Используется в AWQ. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…
- wikiquantization-aware scaling
# quantization-aware scaling ## Определение Техника подбора масштабирующих коэффициентов (scaling factors) для минимизации ошибки при квантизации, используемая в методе AWQ. Позволяет…
- wikiOffloading
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikiHumanEval
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[272. Настроить data augmentation для…
- wikiGSM8K
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikitokenizer
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[212. Настроить chunked prefill для long context|212. Настроить…
- answerКак вы деплоите LLM с TensorRT-LLM в production?
…Hugging Face | | [[Вики/Quantization\|Квантизация]] | FP8, INT4, AWQ | AWQ, GPTQ | GPTQ, AWQ | | Простота деплоя | Средняя (нужна сборка engine) | Высокая (один…
- wikiMistral
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[224. vLLM кластер на 4…
- wikiCUDA
…GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…
- wikiOOM
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[214. Реализовать FP8 инференс на H100|214. Реализовать FP8…
- answerКак вы разворачиваете LLM в production (self-hosted)?
…точное пост-обучение, требует калибровочного датасета, высокая [[Вики/accuracy\|точность]]. - **[[Вики/AWQ\|AWQ]] ([[Вики/AWQ\|Activation-aware Weight Quantization]])**: учитывает…
- answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…Требует QAT или продвинутых методов (например, [[Вики/GPTQ\|GPTQ]], [[Вики/AWQ\|AWQ]], [[Вики/GGUF\|GGUF]]). - Размер Модель уменьшается в 4…
- wikiTGI
…Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…