Поиск

  • wikiauto-gptq

    # auto-gptq ## Определение Библиотека для применения квантизации GPTQ (4-битной) к моделям LLM в Python. ## Где встречается - [[209. Настроить AWQ…

  • wikicalibration dataset

    # calibration dataset ## Определение Небольшой набор данных (обычно 128–1024 примера), используемый для подбора параметров квантизации (GPTQ, AWQ) с целью минимизации…

  • wikiGPTQ

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • answerЧем AWQ отличается от GPTQ?

    …Чем AWQ отличается от GPTQ? ## Краткий тезис [[Вики/GPTQ\|GPTQ]] и [[Вики/AWQ\|AWQ]] — это два популярных алгоритма пост-тренировочной…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить GPTQ vs AWQ на reasoning задачах

    …Квантизация GPTQ и AWQ (2–3 часа) Действия 1. [[Вики/GPTQ\|GPTQ]] [[Вики/Quantization\|квантизация]] (4-bit, [[Вики/Group size…

  • answerGGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска?

    …GGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска? ## Краткий тезис [[Вики/GGUF\|GGUF]], [[Вики/GPTQ\|GPTQ]] и…

  • wikiPost-training quantization

    # Post-training quantization ## Определение Метод квантизации модели после завершения обучения без дополнительного fine-tuning; включает GPTQ, AWQ и выполняется на…

  • wikiExLlama

    # ExLlama ## Определение Библиотека для быстрого инференса GPTQ-моделей на GPU, использующая оптимизированные ядра. ## Где встречается - [[443. GGUF vs GPTQ vs…

  • wikiMarlin kernel

    # Marlin kernel ## Определение Оптимизированное CUDA-ядро для ускорения инференса квантизированных моделей (AWQ, GPTQ) на GPU. ## Где встречается - [[443. GGUF vs…

  • wikiQuIP

    # QuIP ## Определение Теоретически обоснованный метод квантизации нейросетей, использующий обработку некогерентности для минимизации потерь точности; по качеству превосходит GPTQ. ## Где встречается…

  • answerКак сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?

    …Это быстрее [[Вики/GPTQ\|GPTQ]]. - Качество: обычно чуть выше, чем [[Вики/GPTQ\|GPTQ]] при тех же 4-bit, особенно на…

  • answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?

    GPTQ [[Вики/GPTQ\|GPTQ]] (Generative Pre‑Trained [[Вики/Transformer\|Transformer]] [[Вики/Quantization\|Quantization]]) — метод пост‑тренировочной квантизации, который использует **[[Вики…

  • wikiexllamav2

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiAutoAWQ

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiGGUF

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikiAQLM

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikiLLM.int8

    …Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] ## Навигация - [[00. Индекс…

  • wikiHQQ

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikiSalient weights

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • answerКак работает quantization-aware scaling в AWQ для защиты важных весов?

    …Это позволяет [[Вики/AWQ\|AWQ]] превосходить [[Вики/GPTQ\|GPTQ]] по качеству на задачах рассуждения ([[Вики/Reasoning\|reasoning]]) при том же…

  • wikilm_evaluation_harness

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[224. vLLM кластер на 4…

  • wikiAWQ

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikiQwen2.5-7B

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiPass@1

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiGroup size

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikillama.cpp

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikibitsandbytes

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikiNormalFloat4

    …Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[209. Настроить AWQ…

  • wikiHessian

    # Hessian ## Определение Матрица вторых производных, используемая в методе квантизации GPTQ для оптимизации весов модели. ## Где встречается - [[800+ вопросов|800+ вопросов…

  • wikiMath

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…

  • answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?

    GPTQ, AWQ, GGUF Для INT8-квантования LLM существуют специализированные методы: - [[Вики/GPTQ\|GPTQ]] Post-training квантование, основанное на оптимальном округлении…

  • wikiOffloading

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikiHumanEval

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[272. Настроить data augmentation для…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настройка AWQ квантизации для LLM

    …Загрузить квантизатор из `auto_gptq` с конфигурацией [[Вики/AWQ\|AWQ]]: ```python from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig quantize_config = BaseQuantizeConfig…

  • wikiGSM8K

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…

  • answerПочему 4-bit inference иногда медленнее 8-bit?

    …библиотека `GPTQ` (через `auto-gptq`) часто быстрее `bitsandbytes` для 4-bit, потому что использует INT4 с групповым квантованием и оптимизированные…

  • wikiMistral

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] - [[224. vLLM кластер на 4…

  • wikiCUDA

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • answerКак вы разворачиваете LLM в production (self-hosted)?

    …учитывает [[Вики/probability distribution\|распределение]] активаций, часто даёт лучшее качество, чем [[Вики/GPTQ\|GPTQ]]. - [[Вики/bitsandbytes\|bitsandbytes]] (from [[Вики/Hugging…

  • wikiTGI

    …Сравнить GPTQ vs AWQ на reasoning задачах|210. Сравнить GPTQ vs AWQ на reasoning задачах]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiTTFT

    …Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[849. Что такое…

  • wikiTensor parallelism

    …Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[849. Что такое…

  • wikiPerplexity

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • wikiTensorRT-LLM

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • answerКак вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов?

    …алгоритмов (например, [[Вики/Dynamic Quantization\|Dynamic Quantization]] или [[Вики/GPTQ\|GPTQ]]). | Тип квантизации | Стохастичность | Рекомендация | |----------------|----------------|--------------| | **Static quantization** | Низкая (фиксированные коэффициенты…

  • wikiQuantization

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.|443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для…

  • answerКак вы снижаете стоимость LLM в production на 50%+?

    …Инструменты [[Вики/bitsandbytes\|bitsandbytes]], [[Вики/GPTQ\|GPTQ]], [[Вики/AWQ\|AWQ]], [[Вики/llama.cpp\|llama.cpp]]. ## 8. Speculative decoding (спекулятивная генерация…

  • answerEAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?

    …GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.\|443]] | Flash Attention | | [[444. Почему 4-bit inference иногда медленнее…

  • answerКак вы деплоите LLM с TensorRT-LLM в production?

    …Hugging Face | | [[Вики/Quantization\|Квантизация]] | FP8, INT4, AWQ | AWQ, GPTQ | GPTQ, AWQ | | Простота деплоя | Средняя (нужна сборка engine) | Высокая (один…

  • answerЧто такое chunked prefill и зачем он нужен?

    …GGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска.\|209]] | Что такое continuous batching и как он работает…