Поиск

  • wikicalibration dataset

    # calibration dataset ## Определение Небольшой набор данных (обычно 128–1024 примера), используемый для подбора параметров квантизации (GPTQ, AWQ) с целью минимизации…

  • answerКак работает quantization-aware scaling в AWQ для защиты важных весов?

    …Как работает quantization-aware scaling в AWQ для защиты важных весов? ## Краткий тезис **[[Вики/AWQ\|AWQ]] ([[Вики/AWQ\|Activation-aware…

  • wikiPost-training quantization

    # Post-training quantization ## Определение Метод квантизации модели после завершения обучения без дополнительного fine-tuning; включает GPTQ, AWQ и выполняется на…

  • answerЧем AWQ отличается от GPTQ?

    …Чем AWQ отличается от GPTQ? ## Краткий тезис [[Вики/GPTQ\|GPTQ]] и [[Вики/AWQ\|AWQ]] — это два популярных алгоритма пост-тренировочной…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настройка AWQ квантизации для LLM

    …Настройка AWQ квантизации для LLM ## 1. Цель задачи Научиться применять метод [[Вики/AWQ\|AWQ]] ([[Вики/AWQ\|Activation-aware Weight Quantization…

  • wikiAWQ

    …Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[210. Сравнить GPTQ vs AWQ на reasoning задачах|210…

  • wikiauto-gptq

    …Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[210. Сравнить GPTQ vs AWQ на reasoning задачах|210…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить GPTQ vs AWQ на reasoning задачах

    …128}) model_awq.save_pretrained("./models/awq-4bit") tokenizer.save_pretrained("./models/awq-4bit") ``` 3. Измерить - Размер модели на диске…

  • answerGGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска?

    …лучший trade-off quality/speed на GPU AWQ — эволюция GPTQ. Основная идея: **не все веса одинаково важны**. AWQ анализирует активации…

  • wikiAutoGPTQForCausalLM

    # AutoGPTQForCausalLM ## Определение Класс Hugging Face для загрузки квантизированных моделей в формате AWQ, используемый для эффективного инференса. ## Где встречается - [[209. Настроить…

  • wikiexllamav2

    # exllamav2 ## Определение Inference-фреймворк с поддержкой квантизации AWQ, обеспечивающий высокую производительность. ## Где встречается - [[210. Сравнить GPTQ vs AWQ на reasoning…

  • wikiGroup size

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikidamp_percent

    # damp_percent ## Определение Параметр регуляризации в методе квантования AWQ, влияющий на точность сжатия модели. Регулирует компромисс между размером и качеством…

  • wikiAutoAWQ

    # AutoAWQ ## Определение Библиотека для 4-битной квантизации моделей с использованием метода AWQ для уменьшения размера и ускорения инференса. ## Где встречается…

  • wikiMarlin kernel

    # Marlin kernel ## Определение Оптимизированное CUDA-ядро для ускорения инференса квантизированных моделей (AWQ, GPTQ) на GPU. ## Где встречается - [[443. GGUF vs…

  • wikiHQQ

    # HQQ ## Определение Метод квантизации моделей, не требующий калибровочных данных и обеспечивающий качество, сопоставимое с AWQ, при снижении вычислительных затрат. ## Где…

  • wikiSalient weights

    # Salient weights ## Определение В контексте квантизации AWQ — около 1% весов с наибольшим влиянием на активации, которые сохраняются в FP16 для…

  • answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?

    AWQ [[Вики/AWQ\|AWQ]] (Activation‑aware [[Вики/Quantization\|Weight Quantization]]) — метод, который определяет «важные» веса ([[Вики/Salient weights\|salient weights…

  • wikiGPTQ

    …Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[210. Сравнить GPTQ vs AWQ на reasoning задачах|210…

  • wikiNormalFloat4

    …Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[209. Настроить AWQ

  • wikirelative degradation

    …Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiExLlama

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikiGGUF

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikiAQLM

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikiLLM.int8

    …Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] ## Навигация - [[00. Индекс…

  • wikilm-eval-harness

    …Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiQuIP

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • answerКак сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?

    …адаптивная квантизация на основе значимости каналов [[Вики/AWQ\|AWQ]] ([[Вики/AWQ\|Adaptive Weight Quantization]]) — метод, который анализирует [[Вики/Topics\|каналы…

  • wikilm_evaluation_harness

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[224. vLLM кластер на 4…

  • wikiQwen2.5-7B

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikidevice_map

    …Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[215. Настроить expert parallelism для Mixtral|215. Настроить expert…

  • wikiPass@1

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiQuantization-aware training

    …Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikillama.cpp

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikibitsandbytes

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikiGPU memory

    …Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[235. LoRA для function calling|235. LoRA для function…

  • wikiMath

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiзащита важных весов

    …Используется в AWQ. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов|Индекс разборов…

  • wikiquantization-aware scaling

    # quantization-aware scaling ## Определение Техника подбора масштабирующих коэффициентов (scaling factors) для минимизации ошибки при квантизации, используемая в методе AWQ. Позволяет…

  • wikiOffloading

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikiHumanEval

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[272. Настроить data augmentation для…

  • wikiGSM8K

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikitokenizer

    …Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[212. Настроить chunked prefill для long context|212. Настроить…

  • answerКак вы деплоите LLM с TensorRT-LLM в production?

    …Hugging Face | | [[Вики/Quantization\|Квантизация]] | FP8, INT4, AWQ | AWQ, GPTQ | GPTQ, AWQ | | Простота деплоя | Средняя (нужна сборка engine) | Высокая (один…

  • wikiMistral

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[224. vLLM кластер на 4…

  • wikiCUDA

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikiOOM

    …Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] - [[214. Реализовать FP8 инференс на H100|214. Реализовать FP8…

  • answerКак вы разворачиваете LLM в production (self-hosted)?

    …точное пост-обучение, требует калибровочного датасета, высокая [[Вики/accuracy\|точность]]. - **[[Вики/AWQ\|AWQ]] ([[Вики/AWQ\|Activation-aware Weight Quantization]])**: учитывает…

  • answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?

    …Требует QAT или продвинутых методов (например, [[Вики/GPTQ\|GPTQ]], [[Вики/AWQ\|AWQ]], [[Вики/GGUF\|GGUF]]). - Размер Модель уменьшается в 4…

  • wikiTGI

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…