Поиск
- wikiАсимметричное квантование
# Асимметричное квантование ## Определение Метод квантования (ScaNN), при котором запрос не квантуется, а база данных квантуется для ускорения поиска. ## Где встречается…
- wikiActivation quantization
# Activation quantization ## Определение Квантование промежуточных значений (активаций), обычно до INT8. ## Где встречается - [[444. Почему 4-bit inference иногда медленнее 8…
- wikiRedis Queue
…Также термин Residual Quantization (RQ) обозначает последовательное квантование остатков, используемое в векторном поиске. ## Где встречается - [[224. OPQ (Optimized Product Quantization…
- wikiOPQ
# OPQ ## Определение Оптимизированное продуктовое квантование — модификация PQ с ортогональным преобразованием для выравнивания дисперсии подвекторов, улучшающая качество сжатия векторов. ## Где встречается…
- wikiFP8 quantization
# FP8 quantization ## Определение Метод квантизации (квантования) весов и активаций модели до 8-битного формата с плавающей точкой. Позволяет вдвое ускорить…
- wikiScalar quantization
# Scalar quantization ## Определение Тип квантования, при котором каждый компонент вектора приводится к скалярному значению. ## Где встречается - [[223. Как работает Product…
- wiki4-bit quantization
# 4-bit quantization ## Определение Техника сжатия модели, при которой веса представляются 4 битами. Используется в QLoRA для уменьшения потребления памяти…
- wiki8-bit quantization
# 8-bit quantization ## Определение Техника сжатия модели путём представления весов и/или KV-кэша в 8-битном целочисленном формате, что…
- answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…Включает квантование от 2 до 8 бит. ### 8.4 Когда квантование не нужно - Если модель уже помещается в память GPU…
- wikiDouble Quantization
# Double Quantization ## Определение Квантование констант квантизации в 8 бит для дополнительной экономии памяти при хранении модели. ## Где встречается - [[482. Как…
- wikiGGUF
…Поддерживает 2-8 битное квантование, обеспечивая компромисс между размером, скоростью и качеством. ## Где встречается - [[33. Какие фреймворки для fine-tuning…
- wikiIndexIVFPQ
# IndexIVFPQ ## Определение Тип индекса FAISS, комбинирующий инвертированный файл (IVF) с продуктовым квантованием (PQ) для эффективного приближённого поиска с сжатием векторов…
- wiki8-bit
# 8-bit ## Определение Квантование весов модели до 8-битных чисел (INT8) для снижения потребления памяти и ускорения инференса за счёт…
- wikiAdditive Quantization
# Additive Quantization ## Определение Обобщение Product Quantization, где векторы квантуются суммой нескольких центроидов, что повышает точность аппроксимации. ## Где встречается - [[224. OPQ…
- wikiIndexScalarQuantizer
# IndexScalarQuantizer ## Определение Индекс Faiss, использующий скалярное квантование (int8) для сжатия векторов. ## Где встречается - [[232. Что такое Memory-optimized ANN и…
- wikiIndexIVFScalarQuantizer
# IndexIVFScalarQuantizer ## Определение Комбинация IVF и скалярного квантования в Faiss для экономии памяти. ## Где встречается - [[232. Что такое Memory-optimized ANN…
- wikiOrthogonal Procrustes
# Orthogonal Procrustes ## Определение Оптимизационная задача нахождения ортогональной матрицы, используемая в методе OPQ для перераспределения информации между субвекторами перед квантованием. ## Где…
- wikirotation matrix
# rotation matrix ## Определение Ортогональная матрица, используемая в методе OPQ для поворота векторов перед квантованием, что улучшает качество сжатия индекса. ## Где…
- wikipatch encoder
# patch encoder ## Определение Небольшая свёрточная сеть, которая обрабатывает каждый патч изображения перед квантованием в токены. Применяется в архитектуре Fuyu-8B…
- wikiorthogonal transformation
# orthogonal transformation ## Определение Преобразование, применяемое в OPQ для выравнивания дисперсии компонентов вектора перед продуктовым квантованием, повышающее точность сжатия. ## Где встречается…
- wikiResidual Vector Quantization
# Residual Vector Quantization ## Определение Метод многоуровневого векторного квантования, при котором остатки от предыдущего уровня квантуются на следующем, что позволяет сохранить…
- wikiUnpacking
…Может замедлять инференс по сравнению с 8-битным квантованием из-за дополнительных операций распаковки. ## Где встречается - [[444. Почему 4-bit…
- wikiPer-token quantization
# Per-token quantization ## Определение Метод квантования, при котором для каждого токена используются отдельные параметры масштабирования, что позволяет точнее представлять распределение…
- answerКак вы выбираете ANN алгоритм под ваш use case (volume, dimensionality, budget)?
…Позволяет хранить векторы в сжатом виде (например, 4 байта вместо 1024). - **[[Вики/Асимметричное квантование\|Асимметричное квантование]] ([[Вики/ScaNN\|ScaNN]])** — [[Вики…
- wikiBinary quantization
# Binary quantization ## Определение Квантование векторов до бинарных значений (0/1) для экстремального сжатия (в 32 раза) с целью уменьшения latency…
- wikiMemory-optimized ANN
# Memory-optimized ANN ## Определение Подмножество ANN-алгоритмов, адаптированных для работы с ограниченной RAM (например, <16 ГБ) через квантование, дисковое хранение…
- wikiKV cache compression
# KV cache compression ## Определение Методы уменьшения размера кэша ключей и значений (GQA, MQA, квантование, обрезание) для снижения потребления памяти и…
- wikiper-channel scaling
# per-channel scaling ## Определение Метод квантования, при котором каждый канал нейронной сети имеет собственный коэффициент масштабирования, что повышает точность по…
- wikiGroup-wise quantization
# Group-wise quantization ## Определение Техника квантования, при которой веса модели разбиваются на группы (например, по 32 или 64 элемента), и…
- wikiProduct Quantization
# Product Quantization ## Определение Метод сжатия высокоразмерных векторов путём их разбиения на подвекторы и квантования каждого до центроида. Достигает коэффициента сжатия…
- answerПочему KV cache растет линейно с длиной контекста и как это оптимизировать?
…Квантование KV cache [[Вики/Quantization\|Квантование]] снижает разрядность хранимых значений: **[[Вики/FP16\|FP16]]** (16 бит) → [[Вики/Quantization\|INT8]] (8 бит…
- answerКак вы реализуете KV cache для 1M токенов на 8x H100?
…Квантование KV cache (INT4, FP8) [[Вики/Quantization\|Квантование]] снижает [[Вики/accuracy\|точность]] хранения K и V. [[Вики/4-bit quantization…
- answerЧто такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (<16GB)?
…Основная идея — хранить векторы в сжатом виде (квантование) или на диске, а в RAM держать только компактный индекс и кэш…
- wikiQuantization
# Quantization ## Определение Снижение точности представления чисел (весов или активаций) модели для уменьшения её размера и ускорения инференса. Применяется как для…
- answerКак вы разворачиваете LLM в production (self-hosted)?
…Квантование (Quantisation) [[Вики/Quantization\|Квантование]] — снижение точности весов модели (например, с [[Вики/FP16\|FP16]] до [[Вики/4-bit quantization\|INT4…
- answerScaNN (Google) vs HNSW — сравнение для больших масштабов (>100M векторов)?
…устройство и особенности **ScaNN (Scalable Nearest Neighbors)** — гибридный метод от Google, сочетающий иерархическую кластеризацию и анизотропное квантование. Основные компоненты 1…
- answerПочему 4-bit inference иногда медленнее 8-bit?
…Почему 4-bit inference иногда медленнее 8-bit? ## Краткий тезис [[Вики/4-bit quantization\|4-bit]] [[Вики/Quantization\|квантование]] уменьшает…
- answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?
…например, объединение `[[Вики/LayerNorm\|layernorm]]` + `[[Вики/Matrix multiplication\|matmul]]` в одну операцию. - [[Вики/Quantization\|Квантование]] ([[Вики/4-bit quantization\|INT4…
- answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…Ключевые особенности: - [[Вики/Group-wise quantization\|Групповое квантование]]: веса делятся на группы (обычно 128 или 32 элемента), для каждой группы…
- answerOPQ (Optimized Product Quantization) vs PQ — в чем разница?
…OPQ решает эту проблему, добавляя перед квантованием ортогональное преобразование (вращение), которое выравнивает дисперсию компонент, что повышает точность поиска при том…
- answerКакую LLM вы выберете для "быстрых" (<200ms) простых задач классификации?
…Для достижения <200 мс применяют: - [[Вики/Paged Attention\|vLLM]] — эффективный менеджмент памяти (PagedAttention), непрерывное пакетирование, динамическое батчирование. - [[Вики/Quantization\|Квантование…
- wikillama.cpp
# llama.cpp ## Определение Фреймворк для локального запуска LLM на CPU/GPU с квантованием, использует формат GGUF. Лёгкий инференс с batch…
- answerКак работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?
…KV Cache Quantization и Pruning **[[Вики/8-bit quantization\|Квантование KV cache]]** до INT4/INT8 снижает занимаемую [[Вики/Memory\|память…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с векторной БД на CPU (Chroma/Qdrant)
…сравнение FAISS, Chroma, Qdrant | | 45 | Использование sentence-transformers для эмбеддингов | | 78 | Квантование LLM с GGUF и llama.cpp | | 112 | Оценка…
- answerКак вы строите real-time voice agent с latency <500ms?
…минимальная, только для сглаживания джиттера. - Квантование и аппаратное ускорение: использовать GPU/TPU для ASR и LLM, CPU для TTS. - Выбор…
- answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…Swap\|перестановка]] операций для лучшего использования памяти. - [[Вики/Quantization\|Квантование]]: преобразование весов и активаций из [[Вики/FP32\|FP32]] в INT8…
- answerQLoRA vs LoRA — в чем разница и когда QLoRA лучше?
…LoRA, квантование, QLoRA **[[Вики/LoRA\|LoRA]] (Low‑[[Вики/LoRA rank\|Rank]] Adaptation)** — метод параметро-эффективного [[Вики/fine-tuning\|fine-tuning…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…Научиться настраивать [[Вики/FP8 quantization\|FP8-квантование]], проводить сравнение производительности и качества с базовым [[Вики/FP16\|FP16]] инференсом и добиться…
- answerКак вы проектируете систему для real-time video understanding (поток с камер)?
…Оптимизация включает [[Вики/Quantization\|квантование]], [[Вики/selective pruning\|прунинг]], [[Вики/Hardware acceleration\|аппаратное ускорение]] ([[Вики/TensorRT-LLM\|TensorRT]], DeepStream) и…
- answerКакие 3 книги/курса вы рекомендуете по production LLM?
…GPT-4o-mini (через API) или локальная модель (Llama 3 8B с квантованием GGUF). - **Мониторинг**: Prometheus + Grafana (latency, number of…