Поиск

  • wikiАсимметричное квантование

    # Асимметричное квантование ## Определение Метод квантования (ScaNN), при котором запрос не квантуется, а база данных квантуется для ускорения поиска. ## Где встречается…

  • wikiActivation quantization

    # Activation quantization ## Определение Квантование промежуточных значений (активаций), обычно до INT8. ## Где встречается - [[444. Почему 4-bit inference иногда медленнее 8…

  • wikiRedis Queue

    …Также термин Residual Quantization (RQ) обозначает последовательное квантование остатков, используемое в векторном поиске. ## Где встречается - [[224. OPQ (Optimized Product Quantization…

  • wikiOPQ

    # OPQ ## Определение Оптимизированное продуктовое квантование — модификация PQ с ортогональным преобразованием для выравнивания дисперсии подвекторов, улучшающая качество сжатия векторов. ## Где встречается…

  • wikiFP8 quantization

    # FP8 quantization ## Определение Метод квантизации (квантования) весов и активаций модели до 8-битного формата с плавающей точкой. Позволяет вдвое ускорить…

  • wikiScalar quantization

    # Scalar quantization ## Определение Тип квантования, при котором каждый компонент вектора приводится к скалярному значению. ## Где встречается - [[223. Как работает Product…

  • wiki4-bit quantization

    # 4-bit quantization ## Определение Техника сжатия модели, при которой веса представляются 4 битами. Используется в QLoRA для уменьшения потребления памяти…

  • wiki8-bit quantization

    # 8-bit quantization ## Определение Техника сжатия модели путём представления весов и/или KV-кэша в 8-битном целочисленном формате, что…

  • answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?

    …Включает квантование от 2 до 8 бит. ### 8.4 Когда квантование не нужно - Если модель уже помещается в память GPU…

  • wikiDouble Quantization

    # Double Quantization ## Определение Квантование констант квантизации в 8 бит для дополнительной экономии памяти при хранении модели. ## Где встречается - [[482. Как…

  • wikiGGUF

    …Поддерживает 2-8 битное квантование, обеспечивая компромисс между размером, скоростью и качеством. ## Где встречается - [[33. Какие фреймворки для fine-tuning…

  • wikiIndexIVFPQ

    # IndexIVFPQ ## Определение Тип индекса FAISS, комбинирующий инвертированный файл (IVF) с продуктовым квантованием (PQ) для эффективного приближённого поиска с сжатием векторов…

  • wiki8-bit

    # 8-bit ## Определение Квантование весов модели до 8-битных чисел (INT8) для снижения потребления памяти и ускорения инференса за счёт…

  • wikiAdditive Quantization

    # Additive Quantization ## Определение Обобщение Product Quantization, где векторы квантуются суммой нескольких центроидов, что повышает точность аппроксимации. ## Где встречается - [[224. OPQ…

  • wikiIndexScalarQuantizer

    # IndexScalarQuantizer ## Определение Индекс Faiss, использующий скалярное квантование (int8) для сжатия векторов. ## Где встречается - [[232. Что такое Memory-optimized ANN и…

  • wikiIndexIVFScalarQuantizer

    # IndexIVFScalarQuantizer ## Определение Комбинация IVF и скалярного квантования в Faiss для экономии памяти. ## Где встречается - [[232. Что такое Memory-optimized ANN…

  • wikiOrthogonal Procrustes

    # Orthogonal Procrustes ## Определение Оптимизационная задача нахождения ортогональной матрицы, используемая в методе OPQ для перераспределения информации между субвекторами перед квантованием. ## Где…

  • wikirotation matrix

    # rotation matrix ## Определение Ортогональная матрица, используемая в методе OPQ для поворота векторов перед квантованием, что улучшает качество сжатия индекса. ## Где…

  • wikipatch encoder

    # patch encoder ## Определение Небольшая свёрточная сеть, которая обрабатывает каждый патч изображения перед квантованием в токены. Применяется в архитектуре Fuyu-8B…

  • wikiorthogonal transformation

    # orthogonal transformation ## Определение Преобразование, применяемое в OPQ для выравнивания дисперсии компонентов вектора перед продуктовым квантованием, повышающее точность сжатия. ## Где встречается…

  • wikiResidual Vector Quantization

    # Residual Vector Quantization ## Определение Метод многоуровневого векторного квантования, при котором остатки от предыдущего уровня квантуются на следующем, что позволяет сохранить…

  • wikiUnpacking

    …Может замедлять инференс по сравнению с 8-битным квантованием из-за дополнительных операций распаковки. ## Где встречается - [[444. Почему 4-bit…

  • wikiPer-token quantization

    # Per-token quantization ## Определение Метод квантования, при котором для каждого токена используются отдельные параметры масштабирования, что позволяет точнее представлять распределение…

  • answerКак вы выбираете ANN алгоритм под ваш use case (volume, dimensionality, budget)?

    …Позволяет хранить векторы в сжатом виде (например, 4 байта вместо 1024). - **[[Вики/Асимметричное квантование\|Асимметричное квантование]] ([[Вики/ScaNN\|ScaNN]])** — [[Вики…

  • wikiBinary quantization

    # Binary quantization ## Определение Квантование векторов до бинарных значений (0/1) для экстремального сжатия (в 32 раза) с целью уменьшения latency…

  • wikiMemory-optimized ANN

    # Memory-optimized ANN ## Определение Подмножество ANN-алгоритмов, адаптированных для работы с ограниченной RAM (например, <16 ГБ) через квантование, дисковое хранение…

  • wikiKV cache compression

    # KV cache compression ## Определение Методы уменьшения размера кэша ключей и значений (GQA, MQA, квантование, обрезание) для снижения потребления памяти и…

  • wikiper-channel scaling

    # per-channel scaling ## Определение Метод квантования, при котором каждый канал нейронной сети имеет собственный коэффициент масштабирования, что повышает точность по…

  • wikiGroup-wise quantization

    # Group-wise quantization ## Определение Техника квантования, при которой веса модели разбиваются на группы (например, по 32 или 64 элемента), и…

  • wikiProduct Quantization

    # Product Quantization ## Определение Метод сжатия высокоразмерных векторов путём их разбиения на подвекторы и квантования каждого до центроида. Достигает коэффициента сжатия…

  • answerПочему KV cache растет линейно с длиной контекста и как это оптимизировать?

    Квантование KV cache [[Вики/Quantization\|Квантование]] снижает разрядность хранимых значений: **[[Вики/FP16\|FP16]]** (16 бит) → [[Вики/Quantization\|INT8]] (8 бит…

  • answerКак вы реализуете KV cache для 1M токенов на 8x H100?

    Квантование KV cache (INT4, FP8) [[Вики/Quantization\|Квантование]] снижает [[Вики/accuracy\|точность]] хранения K и V. [[Вики/4-bit quantization…

  • answerЧто такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (<16GB)?

    …Основная идея — хранить векторы в сжатом виде (квантование) или на диске, а в RAM держать только компактный индекс и кэш…

  • wikiQuantization

    # Quantization ## Определение Снижение точности представления чисел (весов или активаций) модели для уменьшения её размера и ускорения инференса. Применяется как для…

  • answerКак вы разворачиваете LLM в production (self-hosted)?

    Квантование (Quantisation) [[Вики/Quantization\|Квантование]] — снижение точности весов модели (например, с [[Вики/FP16\|FP16]] до [[Вики/4-bit quantization\|INT4…

  • answerScaNN (Google) vs HNSW — сравнение для больших масштабов (>100M векторов)?

    …устройство и особенности **ScaNN (Scalable Nearest Neighbors)** — гибридный метод от Google, сочетающий иерархическую кластеризацию и анизотропное квантование. Основные компоненты 1…

  • answerПочему 4-bit inference иногда медленнее 8-bit?

    …Почему 4-bit inference иногда медленнее 8-bit? ## Краткий тезис [[Вики/4-bit quantization\|4-bit]] [[Вики/Quantization\|квантование]] уменьшает…

  • answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?

    …например, объединение `[[Вики/LayerNorm\|layernorm]]` + `[[Вики/Matrix multiplication\|matmul]]` в одну операцию. - [[Вики/Quantization\|Квантование]] ([[Вики/4-bit quantization\|INT4…

  • answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?

    …Ключевые особенности: - [[Вики/Group-wise quantization\|Групповое квантование]]: веса делятся на группы (обычно 128 или 32 элемента), для каждой группы…

  • answerOPQ (Optimized Product Quantization) vs PQ — в чем разница?

    …OPQ решает эту проблему, добавляя перед квантованием ортогональное преобразование (вращение), которое выравнивает дисперсию компонент, что повышает точность поиска при том…

  • answerКакую LLM вы выберете для "быстрых" (<200ms) простых задач классификации?

    …Для достижения <200 мс применяют: - [[Вики/Paged Attention\|vLLM]] — эффективный менеджмент памяти (PagedAttention), непрерывное пакетирование, динамическое батчирование. - [[Вики/Quantization\|Квантование

  • wikillama.cpp

    # llama.cpp ## Определение Фреймворк для локального запуска LLM на CPU/GPU с квантованием, использует формат GGUF. Лёгкий инференс с batch…

  • answerКак работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?

    …KV Cache Quantization и Pruning **[[Вики/8-bit quantization\|Квантование KV cache]]** до INT4/INT8 снижает занимаемую [[Вики/Memory\|память…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с векторной БД на CPU (Chroma/Qdrant)

    …сравнение FAISS, Chroma, Qdrant | | 45 | Использование sentence-transformers для эмбеддингов | | 78 | Квантование LLM с GGUF и llama.cpp | | 112 | Оценка…

  • answerКак вы строите real-time voice agent с latency <500ms?

    …минимальная, только для сглаживания джиттера. - Квантование и аппаратное ускорение: использовать GPU/TPU для ASR и LLM, CPU для TTS. - Выбор…

  • answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?

    …Swap\|перестановка]] операций для лучшего использования памяти. - [[Вики/Quantization\|Квантование]]: преобразование весов и активаций из [[Вики/FP32\|FP32]] в INT8…

  • answerQLoRA vs LoRA — в чем разница и когда QLoRA лучше?

    …LoRA, квантование, QLoRA **[[Вики/LoRA\|LoRA]] (Low‑[[Вики/LoRA rank\|Rank]] Adaptation)** — метод параметро-эффективного [[Вики/fine-tuning\|fine-tuning…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100

    …Научиться настраивать [[Вики/FP8 quantization\|FP8-квантование]], проводить сравнение производительности и качества с базовым [[Вики/FP16\|FP16]] инференсом и добиться…

  • answerКак вы проектируете систему для real-time video understanding (поток с камер)?

    …Оптимизация включает [[Вики/Quantization\|квантование]], [[Вики/selective pruning\|прунинг]], [[Вики/Hardware acceleration\|аппаратное ускорение]] ([[Вики/TensorRT-LLM\|TensorRT]], DeepStream) и…

  • answerКакие 3 книги/курса вы рекомендуете по production LLM?

    …GPT-4o-mini (через API) или локальная модель (Llama 3 8B с квантованием GGUF). - **Мониторинг**: Prometheus + Grafana (latency, number of…