Поиск

  • wikiPost-training quantization

    # Post-training quantization ## Определение Метод квантизации модели после завершения обучения без дополнительного fine-tuning; включает GPTQ, AWQ и выполняется на…

  • wikiAdditive Quantization

    # Additive Quantization ## Определение Обобщение Product Quantization, где векторы квантуются суммой нескольких центроидов, что повышает точность аппроксимации. ## Где встречается - [[224. OPQ…

  • wikiQuantization-aware training

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать]] - [[209. Настроить AWQ quantization для LLM|209. Настроить AWQ quantization

  • wikiScalar quantization

    # Scalar quantization ## Определение Тип квантования, при котором каждый компонент вектора приводится к скалярному значению. ## Где встречается - [[223. Как работает Product…

  • wikisubvector

    # subvector ## Определение Непрерывный сегмент высокоразмерного вектора, используемый в Product Quantization для независимого квантования каждой части. Каждый субвектор квантуется отдельно с…

  • wikiAsymmetric Distance Computation

    # Asymmetric Distance Computation ## Определение Метод вычисления расстояния между запросом (в исходном пространстве) и сжатым вектором в Product Quantization без полного…

  • wikiGroup-wise quantization

    # Group-wise quantization ## Определение Техника квантования, при которой веса модели разбиваются на группы (например, по 32 или 64 элемента), и…

  • wiki8-bit quantization

    # 8-bit quantization ## Определение Техника сжатия модели путём представления весов и/или KV-кэша в 8-битном целочисленном формате, что…

  • wikiProduct Quantization (PQ) parameters

    # Product Quantization (PQ) parameters ## Определение Параметры метода Product Quantization, такие как количество подвекторов (m=32/64) и количество бит на…

  • wikiWeight-only quantization

    # Weight-only quantization ## Определение Квантизация только весов модели с сохранением активаций в FP16. Позволяет ускорить инференс и уменьшить потребление памяти…

  • wikiRedis Queue

    …Также термин Residual Quantization (RQ) обозначает последовательное квантование остатков, используемое в векторном поиске. ## Где встречается - [[224. OPQ (Optimized Product Quantization

  • wiki4-bit quantization

    # 4-bit quantization ## Определение Техника сжатия модели, при которой веса представляются 4 битами. Используется в QLoRA для уменьшения потребления памяти…

  • wikiFP8 quantization

    # FP8 quantization ## Определение Метод квантизации (квантования) весов и активаций модели до 8-битного формата с плавающей точкой. Позволяет вдвое ускорить…

  • wikilow-bit quantization

    # low-bit quantization ## Определение Представление весов и/или активаций модели с использованием меньшего числа бит (например, 4 бита), что ускоряет…

  • wikianisotropic quantization

    # anisotropic quantization ## Определение Метод квантования, используемый в ScaNN, который учитывает анизотропию данных для уменьшения ошибки поиска. ## Где встречается - [[800+ вопросов…

  • answerКак работает QLoRA (Quantized LoRA) для training?

    …Квантизация (Quantization) — снижение точности весов [[Вики/Quantization\|Квантизация]] — это процесс преобразования чисел с плавающей точкой (например, [[Вики/Quantization\|FP16]]) в…

  • wikiStatic Quantization

    # Static Quantization ## Определение Метод квантизации моделей с фиксированными коэффициентами масштабирования, требующий калибровочного датасета для определения диапазонов активаций. Обеспечивает значительное ускорение…

  • wikiDynamic Quantization

    # Dynamic Quantization ## Определение Метод квантизации, при котором веса модели преобразуются в INT8 при загрузке, а активации остаются в FP32; прост…

  • wikiActivation quantization

    # Activation quantization ## Определение Квантование промежуточных значений (активаций), обычно до INT8. ## Где встречается - [[444. Почему 4-bit inference иногда медленнее 8…

  • wikicentroid

    # centroid ## Определение In Product Quantization, a centroid is the representative vector for a cluster of subvectors; each subvector is replaced…

  • wikiDouble Quantization

    # Double Quantization ## Определение Квантование констант квантизации в 8 бит для дополнительной экономии памяти при хранении модели. ## Где встречается - [[482. Как…

  • wikiProduct Quantization

    # Product Quantization ## Определение Метод сжатия высокоразмерных векторов путём их разбиения на подвекторы и квантования каждого до центроида. Достигает коэффициента сжатия…

  • wikiGPTQ

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiAWQ

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiquantization-aware scaling

    # quantization-aware scaling ## Определение Техника подбора масштабирующих коэффициентов (scaling factors) для минимизации ошибки при квантизации, используемая в методе AWQ. Позволяет…

  • wikiuint8

    …Используется для хранения сжатых векторных представлений после квантования (например, Product Quantization). ## Где встречается - [[223. Как работает Product Quantization (PQ) для…

  • wikiProductQuantizer

    # ProductQuantizer ## Определение Класс на Python (numpy) для реализации Product Quantization — метода сжатия векторов путём их разбиения на подпространства и квантования…

  • wikiIVF+PQ

    …Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] ## Навигация - [[00. Индекс…

  • wikibitsandbytes 4-bit quantization

    # bitsandbytes 4-bit quantization ## Определение Метод снижения потребления памяти GPU за счёт квантизации модели до 4-битной точности, позволяющий одновременно…

  • wikismooth quantization

    # smooth quantization ## Определение Метод сглаживания выбросов в весах или активациях перед инференсом, позволяющий уменьшить потери точности при низкобитной квантизации, например…

  • wikiSymmetric quantization

    # Symmetric quantization ## Определение Метод квантизации, где w_q = round(w / scale), scale = max(|w|) / (2^(bits-1) - 1), обеспечивающий симметричное…

  • wikiResidual Vector Quantization

    # Residual Vector Quantization ## Определение Метод многоуровневого векторного квантования, при котором остатки от предыдущего уровня квантуются на следующем, что позволяет сохранить…

  • answerКак работает FP8 quantization на H100 (Transformer Engine)?

    …FP8 quantization [[Вики/FP8 quantization\|FP8 quantization]] — это формат чисел с плавающей точкой, использующий 8 бит вместо 16 ([[Вики/Quantization

  • wikicodebook

    # codebook ## Определение Кодовая книга — это набор центроидов, полученный кластеризацией подпространства, используемый в Product Quantization для квантования подвекторов с целью сжатия…

  • answerЧто такое Quasar и как quantized verification ускоряет инференс?

    …Ключевая инновация [[Вики/Quasar\|Quasar]] — применение [[Вики/low-bit quantization\|low-bit quantization]] (например, [[Вики/Quantization\|INT4]] или INT2) исключительно…

  • wikiPer-token quantization

    # Per-token quantization ## Определение Метод квантования, при котором для каждого токена используются отдельные параметры масштабирования, что позволяет точнее представлять распределение…

  • wikicalibration dataset

    …Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[800+ вопросов|800…

  • wikiTransformer Engine

    # Transformer Engine ## Определение Аппаратный модуль и программная библиотека NVIDIA для автоматического управления FP8 quantization и масштабированием на H100/B200. ## Где…

  • wikidelayed scaling

    # delayed scaling ## Определение Метод калибровки масштабов в Transformer Engine для FP8 quantization на H100, при котором scaling factor применяется с…

  • wikiBinary quantization

    # Binary quantization ## Определение Квантование векторов до бинарных значений (0/1) для экстремального сжатия (в 32 раза) с целью уменьшения latency…

  • wikiGGUF

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikigradient scaling

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[464. Почему BF16…

  • wikiFaiss IVF-PQ

    # Faiss IVF-PQ ## Определение Алгоритм приближённого поиска ближайших соседей (ANN), сочетающий инвертированный файл (IVF) для кластеризации и product quantization (PQ…

  • wikiQuantization

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[317. Что такое…

  • answerЧем AWQ отличается от GPTQ?

    …Существует два основных подхода: - **[[Вики/Quantization-aware training\|Quantization-Aware Training]] ([[Вики/Quantization-aware training\|QAT]])** — [[Вики/Quantization\|квантизация]] встраивается…

  • answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?

    …Различают квантизацию только весов (weight‑only) и **квантизацию весов + активаций** (weight‑quantization|activation quantization). В форматах GGUF, GPTQ, AWQ квантизуются…

  • wikiNormalFloat4

    …Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[209. Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM…

  • answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?

    …Основные типы квантования - **[[Вики/Post-training quantization\|Post-Training Quantization]] ([[Вики/Post-training quantization\|PTQ]]):** [[Вики/Quantization\|Квантование]] уже обученной…

  • wikiOPQ

    …OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] - [[235…

  • wikiAutoGPTQForCausalLM

    …Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…