Поиск

wikiPost-training quantization
# Post-training quantization ## Определение Метод квантизации модели после завершения обучения без дополнительного fine-tuning; включает GPTQ, AWQ и выполняется на…
wikiAdditive Quantization
# Additive Quantization ## Определение Обобщение Product Quantization, где векторы квантуются суммой нескольких центроидов, что повышает точность аппроксимации. ## Где встречается - [[224. OPQ…
wikiQuantization-aware training
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать]] - [[209. Настроить AWQ quantization для LLM|209. Настроить AWQ quantization…
wikiScalar quantization
# Scalar quantization ## Определение Тип квантования, при котором каждый компонент вектора приводится к скалярному значению. ## Где встречается - [[223. Как работает Product…
wikisubvector
# subvector ## Определение Непрерывный сегмент высокоразмерного вектора, используемый в Product Quantization для независимого квантования каждой части. Каждый субвектор квантуется отдельно с…
wikiAsymmetric Distance Computation
# Asymmetric Distance Computation ## Определение Метод вычисления расстояния между запросом (в исходном пространстве) и сжатым вектором в Product Quantization без полного…
wikiGroup-wise quantization
# Group-wise quantization ## Определение Техника квантования, при которой веса модели разбиваются на группы (например, по 32 или 64 элемента), и…
wiki8-bit quantization
# 8-bit quantization ## Определение Техника сжатия модели путём представления весов и/или KV-кэша в 8-битном целочисленном формате, что…
wikiProduct Quantization (PQ) parameters
# Product Quantization (PQ) parameters ## Определение Параметры метода Product Quantization, такие как количество подвекторов (m=32/64) и количество бит на…
wikiWeight-only quantization
# Weight-only quantization ## Определение Квантизация только весов модели с сохранением активаций в FP16. Позволяет ускорить инференс и уменьшить потребление памяти…
wikiRedis Queue
…Также термин Residual Quantization (RQ) обозначает последовательное квантование остатков, используемое в векторном поиске. ## Где встречается - [[224. OPQ (Optimized Product Quantization…
wiki4-bit quantization
# 4-bit quantization ## Определение Техника сжатия модели, при которой веса представляются 4 битами. Используется в QLoRA для уменьшения потребления памяти…
wikiFP8 quantization
# FP8 quantization ## Определение Метод квантизации (квантования) весов и активаций модели до 8-битного формата с плавающей точкой. Позволяет вдвое ускорить…
wikilow-bit quantization
# low-bit quantization ## Определение Представление весов и/или активаций модели с использованием меньшего числа бит (например, 4 бита), что ускоряет…
wikianisotropic quantization
# anisotropic quantization ## Определение Метод квантования, используемый в ScaNN, который учитывает анизотропию данных для уменьшения ошибки поиска. ## Где встречается - [[800+ вопросов…
answerКак работает QLoRA (Quantized LoRA) для training?
…Квантизация (Quantization) — снижение точности весов [[Вики/Quantization\|Квантизация]] — это процесс преобразования чисел с плавающей точкой (например, [[Вики/Quantization\|FP16]]) в…
wikiStatic Quantization
# Static Quantization ## Определение Метод квантизации моделей с фиксированными коэффициентами масштабирования, требующий калибровочного датасета для определения диапазонов активаций. Обеспечивает значительное ускорение…
wikiDynamic Quantization
# Dynamic Quantization ## Определение Метод квантизации, при котором веса модели преобразуются в INT8 при загрузке, а активации остаются в FP32; прост…
wikiActivation quantization
# Activation quantization ## Определение Квантование промежуточных значений (активаций), обычно до INT8. ## Где встречается - [[444. Почему 4-bit inference иногда медленнее 8…
wikicentroid
# centroid ## Определение In Product Quantization, a centroid is the representative vector for a cluster of subvectors; each subvector is replaced…
wikiDouble Quantization
# Double Quantization ## Определение Квантование констант квантизации в 8 бит для дополнительной экономии памяти при хранении модели. ## Где встречается - [[482. Как…
wikiProduct Quantization
# Product Quantization ## Определение Метод сжатия высокоразмерных векторов путём их разбиения на подвекторы и квантования каждого до центроида. Достигает коэффициента сжатия…
wikiGPTQ
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiAWQ
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiquantization-aware scaling
# quantization-aware scaling ## Определение Техника подбора масштабирующих коэффициентов (scaling factors) для минимизации ошибки при квантизации, используемая в методе AWQ. Позволяет…
wikiuint8
…Используется для хранения сжатых векторных представлений после квантования (например, Product Quantization). ## Где встречается - [[223. Как работает Product Quantization (PQ) для…
wikiProductQuantizer
# ProductQuantizer ## Определение Класс на Python (numpy) для реализации Product Quantization — метода сжатия векторов путём их разбиения на подпространства и квантования…
wikiIVF+PQ
…Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] ## Навигация - [[00. Индекс…
wikibitsandbytes 4-bit quantization
# bitsandbytes 4-bit quantization ## Определение Метод снижения потребления памяти GPU за счёт квантизации модели до 4-битной точности, позволяющий одновременно…
wikismooth quantization
# smooth quantization ## Определение Метод сглаживания выбросов в весах или активациях перед инференсом, позволяющий уменьшить потери точности при низкобитной квантизации, например…
wikiSymmetric quantization
# Symmetric quantization ## Определение Метод квантизации, где w_q = round(w / scale), scale = max(|w|) / (2^(bits-1) - 1), обеспечивающий симметричное…
wikiResidual Vector Quantization
# Residual Vector Quantization ## Определение Метод многоуровневого векторного квантования, при котором остатки от предыдущего уровня квантуются на следующем, что позволяет сохранить…
answerКак работает FP8 quantization на H100 (Transformer Engine)?
…FP8 quantization [[Вики/FP8 quantization\|FP8 quantization]] — это формат чисел с плавающей точкой, использующий 8 бит вместо 16 ([[Вики/Quantization…
wikicodebook
# codebook ## Определение Кодовая книга — это набор центроидов, полученный кластеризацией подпространства, используемый в Product Quantization для квантования подвекторов с целью сжатия…
answerЧто такое Quasar и как quantized verification ускоряет инференс?
…Ключевая инновация [[Вики/Quasar\|Quasar]] — применение [[Вики/low-bit quantization\|low-bit quantization]] (например, [[Вики/Quantization\|INT4]] или INT2) исключительно…
wikiPer-token quantization
# Per-token quantization ## Определение Метод квантования, при котором для каждого токена используются отдельные параметры масштабирования, что позволяет точнее представлять распределение…
wikicalibration dataset
…Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)|847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[800+ вопросов|800…
wikiTransformer Engine
# Transformer Engine ## Определение Аппаратный модуль и программная библиотека NVIDIA для автоматического управления FP8 quantization и масштабированием на H100/B200. ## Где…
wikidelayed scaling
# delayed scaling ## Определение Метод калибровки масштабов в Transformer Engine для FP8 quantization на H100, при котором scaling factor применяется с…
wikiBinary quantization
# Binary quantization ## Определение Квантование векторов до бинарных значений (0/1) для экстремального сжатия (в 32 раза) с целью уменьшения latency…
wikiGGUF
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikigradient scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[464. Почему BF16…
wikiFaiss IVF-PQ
# Faiss IVF-PQ ## Определение Алгоритм приближённого поиска ближайших соседей (ANN), сочетающий инвертированный файл (IVF) для кластеризации и product quantization (PQ…
wikiQuantization
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[317. Что такое…
answerЧем AWQ отличается от GPTQ?
…Существует два основных подхода: - **[[Вики/Quantization-aware training\|Quantization-Aware Training]] ([[Вики/Quantization-aware training\|QAT]])** — [[Вики/Quantization\|квантизация]] встраивается…
answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…Различают квантизацию только весов (weight‑only) и **квантизацию весов + активаций** (weight‑quantization|activation quantization). В форматах GGUF, GPTQ, AWQ квантизуются…
wikiNormalFloat4
…Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[209. Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM…
answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…Основные типы квантования - **[[Вики/Post-training quantization\|Post-Training Quantization]] ([[Вики/Post-training quantization\|PTQ]]):** [[Вики/Quantization\|Квантование]] уже обученной…
wikiOPQ
…OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] - [[235…
wikiAutoGPTQForCausalLM
…Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…