Поиск

wikiAdditive Quantization
# Additive Quantization ## Определение Обобщение Product Quantization, где векторы квантуются суммой нескольких центроидов, что повышает точность аппроксимации. ## Где встречается - [[224. OPQ…
wikisubvector
# subvector ## Определение Непрерывный сегмент высокоразмерного вектора, используемый в Product Quantization для независимого квантования каждой части. Каждый субвектор квантуется отдельно с…
wikiAsymmetric Distance Computation
# Asymmetric Distance Computation ## Определение Метод вычисления расстояния между запросом (в исходном пространстве) и сжатым вектором в Product Quantization без полного…
wikiScalar quantization
# Scalar quantization ## Определение Тип квантования, при котором каждый компонент вектора приводится к скалярному значению. ## Где встречается - [[223. Как работает Product…
wikiProduct Quantization (PQ) parameters
# Product Quantization (PQ) parameters ## Определение Параметры метода Product Quantization, такие как количество подвекторов (m=32/64) и количество бит на…
wikiProductQuantizer
# ProductQuantizer ## Определение Класс на Python (numpy) для реализации Product Quantization — метода сжатия векторов путём их разбиения на подпространства и квантования…
wikicentroid
# centroid ## Определение In Product Quantization, a centroid is the representative vector for a cluster of subvectors; each subvector is replaced…
wikiProduct Quantization
# Product Quantization ## Определение Метод сжатия высокоразмерных векторов путём их разбиения на подвекторы и квантования каждого до центроида. Достигает коэффициента сжатия…
wikiuint8
…Используется для хранения сжатых векторных представлений после квантования (например, Product Quantization). ## Где встречается - [[223. Как работает Product Quantization (PQ) для…
wikiIVF+PQ
…Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] ## Навигация - [[00. Индекс…
wikiRedis Queue
…OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] - [[800…
wikicodebook
# codebook ## Определение Кодовая книга — это набор центроидов, полученный кластеризацией подпространства, используемый в Product Quantization для квантования подвекторов с целью сжатия…
wikiGPTQ
…Как вы разворачиваете LLM в production (self-hosted)|61. Как вы разворачиваете LLM в production (self-hosted)]] - [[64. Как вы…
wikiAWQ
…Как вы разворачиваете LLM в production (self-hosted)|61. Как вы разворачиваете LLM в production (self-hosted)]] - [[64. Как вы…
wikiFaiss IVF-PQ
# Faiss IVF-PQ ## Определение Алгоритм приближённого поиска ближайших соседей (ANN), сочетающий инвертированный файл (IVF) для кластеризации и product quantization (PQ…
wikiOPQ
…OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] - [[235…
wikiBinary quantization
# Binary quantization ## Определение Квантование векторов до бинарных значений (0/1) для экстремального сжатия (в 32 раза) с целью уменьшения latency…
wikiIndexIVFPQ
…OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] ## Навигация…
wikiL2 distance
# L2 distance ## Определение Евклидово расстояние между векторами, используемое как метрика схожести в поиске (например, в HNSW или Product Quantization). ## Где…
wikiOrthogonal Procrustes
…OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] ## Навигация…
wikirotation matrix
…OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] ## Навигация…
wikiorthogonal transformation
…OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] - [[800…
wikiQuantization
…Как вы разворачиваете LLM в production (self-hosted)|61. Как вы разворачиваете LLM в production (self-hosted)]] - [[64. Как вы…
wikiNormalFloat4
…Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[209. Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM…
wikiGGUF
…Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] - [[443. GGUF vs…
answerOPQ (Optimized Product Quantization) vs PQ — в чем разница?
…OPQ (Optimized Product Quantization) vs PQ — в чем разница? ## Краткий тезис **Quantization|Product Quantization (PQ)** и **Product Quantization (OPQ)** — методы…
wikiInverted File Index
…Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[224. OPQ (Optimized…
wikiSIFT1M
…OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] - [[229…
wikiANN
…Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[224. OPQ (Optimized…
wikibitsandbytes
…Как вы разворачиваете LLM в production (self-hosted)|61. Как вы разворачиваете LLM в production (self-hosted)]] - [[70. Как вы…
answerКак работает Product Quantization (PQ) для сжатия векторов?
…Как работает Product Quantization (PQ) для сжатия векторов? ## Краткий тезис **Quantization|Product Quantization (PQ)** — это метод сжатия векторных представлений, который…
wikiLocality Sensitive Hashing
…Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[235. Как вы…
wikirecall@1
…OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] - [[229…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить sharding для petabyte embeddings
…200` - включить [[Вики/Product Quantization\|Product Quantization]] (PQ): `[[Вики/Quantization\|quantization]]: {pq: {m: 32, [[Вики/Product Quantization (PQ) parameters\|size…
wikillama.cpp
…Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] - [[72…
wikiK-means
…Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[230. Что такое…
wikiPinecone
…Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[229. Как вы…
answerКак вы управляете cost хранения векторной БД при миллиарде векторов?
…Product Quantization (PQ) – основное сжатие [[Вики/Product Quantization\|Product Quantization]] — метод сжатия векторов путём их разбиения на подпространства и квантования…
wikiFP32
…Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[433. Почему KV…
answerЧто такое Quasar и как quantized verification ускоряет инференс?
…Ключевая инновация [[Вики/Quasar\|Quasar]] — применение [[Вики/low-bit quantization\|low-bit quantization]] (например, [[Вики/Quantization\|INT4]] или INT2) исключительно…
wikiMilvus
…Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[225. Как вы…
answerЧто такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (<16GB)?
…Основные подходы к экономии памяти ### 2.1 Product Quantization (PQ) [[Вики/Product Quantization\|Product Quantization]] — метод сжатия векторов, при котором…
wikiFaiss
…Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[224. OPQ (Optimized…
answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…Основные типы квантования - **[[Вики/Post-training quantization\|Post-Training Quantization]] ([[Вики/Post-training quantization\|PTQ]]):** [[Вики/Quantization\|Квантование]] уже обученной…
wikiOOM
…Как вы разворачиваете LLM в production (self-hosted)|61. Как вы разворачиваете LLM в production (self-hosted)]] - [[62. Какие метрики…
answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…Квантизация в ORT [[Вики/ONNX Runtime\|ORT]] поддерживает два подхода к квантизации: - [[Вики/Dynamic Quantization\|Dynamic Quantization]] — веса квантизуются в…
answerScaNN (Google) vs HNSW — сравнение для больших масштабов (>100M векторов)?
…Это даёт более точное приближение расстояний, чем стандартное Product Quantization (PQ). 3. **Оптимизация под Maximum Inner Product Search (MIPS)** — ScaNN…
answerЧем AWQ отличается от GPTQ?
…Существует два основных подхода: - **[[Вики/Quantization-aware training\|Quantization-Aware Training]] ([[Вики/Quantization-aware training\|QAT]])** — [[Вики/Quantization\|квантизация]] встраивается…
wikitokenizer
…Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] - [[284. Как работают…
answerКак вы деплоите LLM с TensorRT-LLM в production?
…Деплой в [[Вики/production\|production]] включает конвертацию модели в формат engine (файл `.[[Вики/Plan\|plan]]`), настройку [[Вики/Triton Inference Server…