Поиск

  • wikiAdditive Quantization

    # Additive Quantization ## Определение Обобщение Product Quantization, где векторы квантуются суммой нескольких центроидов, что повышает точность аппроксимации. ## Где встречается - [[224. OPQ…

  • wikisubvector

    # subvector ## Определение Непрерывный сегмент высокоразмерного вектора, используемый в Product Quantization для независимого квантования каждой части. Каждый субвектор квантуется отдельно с…

  • wikiAsymmetric Distance Computation

    # Asymmetric Distance Computation ## Определение Метод вычисления расстояния между запросом (в исходном пространстве) и сжатым вектором в Product Quantization без полного…

  • wikiScalar quantization

    # Scalar quantization ## Определение Тип квантования, при котором каждый компонент вектора приводится к скалярному значению. ## Где встречается - [[223. Как работает Product

  • wikiProduct Quantization (PQ) parameters

    # Product Quantization (PQ) parameters ## Определение Параметры метода Product Quantization, такие как количество подвекторов (m=32/64) и количество бит на…

  • wikiProductQuantizer

    # ProductQuantizer ## Определение Класс на Python (numpy) для реализации Product Quantization — метода сжатия векторов путём их разбиения на подпространства и квантования…

  • wikicentroid

    # centroid ## Определение In Product Quantization, a centroid is the representative vector for a cluster of subvectors; each subvector is replaced…

  • wikiProduct Quantization

    # Product Quantization ## Определение Метод сжатия высокоразмерных векторов путём их разбиения на подвекторы и квантования каждого до центроида. Достигает коэффициента сжатия…

  • wikiuint8

    …Используется для хранения сжатых векторных представлений после квантования (например, Product Quantization). ## Где встречается - [[223. Как работает Product Quantization (PQ) для…

  • wikiIVF+PQ

    …Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] ## Навигация - [[00. Индекс…

  • wikiRedis Queue

    …OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] - [[800…

  • wikicodebook

    # codebook ## Определение Кодовая книга — это набор центроидов, полученный кластеризацией подпространства, используемый в Product Quantization для квантования подвекторов с целью сжатия…

  • wikiGPTQ

    …Как вы разворачиваете LLM в production (self-hosted)|61. Как вы разворачиваете LLM в production (self-hosted)]] - [[64. Как вы…

  • wikiAWQ

    …Как вы разворачиваете LLM в production (self-hosted)|61. Как вы разворачиваете LLM в production (self-hosted)]] - [[64. Как вы…

  • wikiFaiss IVF-PQ

    # Faiss IVF-PQ ## Определение Алгоритм приближённого поиска ближайших соседей (ANN), сочетающий инвертированный файл (IVF) для кластеризации и product quantization (PQ…

  • wikiOPQ

    …OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] - [[235…

  • wikiBinary quantization

    # Binary quantization ## Определение Квантование векторов до бинарных значений (0/1) для экстремального сжатия (в 32 раза) с целью уменьшения latency…

  • wikiIndexIVFPQ

    …OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] ## Навигация…

  • wikiL2 distance

    # L2 distance ## Определение Евклидово расстояние между векторами, используемое как метрика схожести в поиске (например, в HNSW или Product Quantization). ## Где…

  • wikiOrthogonal Procrustes

    …OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] ## Навигация…

  • wikirotation matrix

    …OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] ## Навигация…

  • wikiorthogonal transformation

    …OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] - [[800…

  • wikiQuantization

    …Как вы разворачиваете LLM в production (self-hosted)|61. Как вы разворачиваете LLM в production (self-hosted)]] - [[64. Как вы…

  • wikiNormalFloat4

    …Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)]] - [[209. Настроить AWQ quantization для LLM|209. Настроить AWQ quantization для LLM…

  • wikiGGUF

    …Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] - [[443. GGUF vs…

  • answerOPQ (Optimized Product Quantization) vs PQ — в чем разница?

    …OPQ (Optimized Product Quantization) vs PQ — в чем разница? ## Краткий тезис **Quantization|Product Quantization (PQ)** и **Product Quantization (OPQ)** — методы…

  • wikiInverted File Index

    …Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[224. OPQ (Optimized…

  • wikiSIFT1M

    …OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] - [[229…

  • wikiANN

    …Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[224. OPQ (Optimized…

  • wikibitsandbytes

    …Как вы разворачиваете LLM в production (self-hosted)|61. Как вы разворачиваете LLM в production (self-hosted)]] - [[70. Как вы…

  • answerКак работает Product Quantization (PQ) для сжатия векторов?

    …Как работает Product Quantization (PQ) для сжатия векторов? ## Краткий тезис **Quantization|Product Quantization (PQ)** — это метод сжатия векторных представлений, который…

  • wikiLocality Sensitive Hashing

    …Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[235. Как вы…

  • wikirecall@1

    …OPQ (Optimized Product Quantization) vs PQ — в чем разница|224. OPQ (Optimized Product Quantization) vs PQ — в чем разница]] - [[229…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить sharding для petabyte embeddings

    …200` - включить [[Вики/Product Quantization\|Product Quantization]] (PQ): `[[Вики/Quantization\|quantization]]: {pq: {m: 32, [[Вики/Product Quantization (PQ) parameters\|size…

  • wikillama.cpp

    …Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] - [[72…

  • wikiK-means

    …Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[230. Что такое…

  • wikiPinecone

    …Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[229. Как вы…

  • answerКак вы управляете cost хранения векторной БД при миллиарде векторов?

    Product Quantization (PQ) – основное сжатие [[Вики/Product Quantization\|Product Quantization]] — метод сжатия векторов путём их разбиения на подпространства и квантования…

  • wikiFP32

    …Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[433. Почему KV…

  • answerЧто такое Quasar и как quantized verification ускоряет инференс?

    …Ключевая инновация [[Вики/Quasar\|Quasar]] — применение [[Вики/low-bit quantization\|low-bit quantization]] (например, [[Вики/Quantization\|INT4]] или INT2) исключительно…

  • wikiMilvus

    …Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[225. Как вы…

  • answerЧто такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (<16GB)?

    …Основные подходы к экономии памяти ### 2.1 Product Quantization (PQ) [[Вики/Product Quantization\|Product Quantization]] — метод сжатия векторов, при котором…

  • wikiFaiss

    …Как работает Product Quantization (PQ) для сжатия векторов|223. Как работает Product Quantization (PQ) для сжатия векторов]] - [[224. OPQ (Optimized…

  • answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?

    …Основные типы квантования - **[[Вики/Post-training quantization\|Post-Training Quantization]] ([[Вики/Post-training quantization\|PTQ]]):** [[Вики/Quantization\|Квантование]] уже обученной…

  • wikiOOM

    …Как вы разворачиваете LLM в production (self-hosted)|61. Как вы разворачиваете LLM в production (self-hosted)]] - [[62. Какие метрики…

  • answerЧто такое ONNX Runtime и когда он выгоден для LLM?

    …Квантизация в ORT [[Вики/ONNX Runtime\|ORT]] поддерживает два подхода к квантизации: - [[Вики/Dynamic Quantization\|Dynamic Quantization]] — веса квантизуются в…

  • answerScaNN (Google) vs HNSW — сравнение для больших масштабов (>100M векторов)?

    …Это даёт более точное приближение расстояний, чем стандартное Product Quantization (PQ). 3. **Оптимизация под Maximum Inner Product Search (MIPS)** — ScaNN…

  • answerЧем AWQ отличается от GPTQ?

    …Существует два основных подхода: - **[[Вики/Quantization-aware training\|Quantization-Aware Training]] ([[Вики/Quantization-aware training\|QAT]])** — [[Вики/Quantization\|квантизация]] встраивается…

  • wikitokenizer

    …Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] - [[284. Как работают…

  • answerКак вы деплоите LLM с TensorRT-LLM в production?

    …Деплой в [[Вики/production\|production]] включает конвертацию модели в формат engine (файл `.[[Вики/Plan\|plan]]`), настройку [[Вики/Triton Inference Server…