Поиск

wikiАсимметричное квантование
# Асимметричное квантование ## Определение Метод квантования (ScaNN), при котором запрос не квантуется, а база данных квантуется для ускорения поиска. ## Где встречается…
wikiActivation quantization
# Activation quantization ## Определение Квантование промежуточных значений (активаций), обычно до INT8. ## Где встречается - [[444. Почему 4-bit inference иногда медленнее 8…
wikiRedis Queue
…Также термин Residual Quantization (RQ) обозначает последовательное квантование остатков, используемое в векторном поиске. ## Где встречается - [[224. OPQ (Optimized Product Quantization…
wikiOPQ
# OPQ ## Определение Оптимизированное продуктовое квантование — модификация PQ с ортогональным преобразованием для выравнивания дисперсии подвекторов, улучшающая качество сжатия векторов. ## Где встречается…
wikiFP8 quantization
# FP8 quantization ## Определение Метод квантизации (квантования) весов и активаций модели до 8-битного формата с плавающей точкой. Позволяет вдвое ускорить…
wikiScalar quantization
# Scalar quantization ## Определение Тип квантования, при котором каждый компонент вектора приводится к скалярному значению. ## Где встречается - [[223. Как работает Product…
wiki4-bit quantization
# 4-bit quantization ## Определение Техника сжатия модели, при которой веса представляются 4 битами. Используется в QLoRA для уменьшения потребления памяти…
wiki8-bit quantization
# 8-bit quantization ## Определение Техника сжатия модели путём представления весов и/или KV-кэша в 8-битном целочисленном формате, что…
answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…Включает квантование от 2 до 8 бит. ### 8.4 Когда квантование не нужно - Если модель уже помещается в память GPU…
wikiDouble Quantization
# Double Quantization ## Определение Квантование констант квантизации в 8 бит для дополнительной экономии памяти при хранении модели. ## Где встречается - [[482. Как…
wikiGGUF
…Поддерживает 2-8 битное квантование, обеспечивая компромисс между размером, скоростью и качеством. ## Где встречается - [[33. Какие фреймворки для fine-tuning…
wikiIndexIVFPQ
# IndexIVFPQ ## Определение Тип индекса FAISS, комбинирующий инвертированный файл (IVF) с продуктовым квантованием (PQ) для эффективного приближённого поиска с сжатием векторов…
wiki8-bit
# 8-bit ## Определение Квантование весов модели до 8-битных чисел (INT8) для снижения потребления памяти и ускорения инференса за счёт…
wikiAdditive Quantization
# Additive Quantization ## Определение Обобщение Product Quantization, где векторы квантуются суммой нескольких центроидов, что повышает точность аппроксимации. ## Где встречается - [[224. OPQ…
wikiIndexScalarQuantizer
# IndexScalarQuantizer ## Определение Индекс Faiss, использующий скалярное квантование (int8) для сжатия векторов. ## Где встречается - [[232. Что такое Memory-optimized ANN и…
wikiIndexIVFScalarQuantizer
# IndexIVFScalarQuantizer ## Определение Комбинация IVF и скалярного квантования в Faiss для экономии памяти. ## Где встречается - [[232. Что такое Memory-optimized ANN…
wikiOrthogonal Procrustes
# Orthogonal Procrustes ## Определение Оптимизационная задача нахождения ортогональной матрицы, используемая в методе OPQ для перераспределения информации между субвекторами перед квантованием. ## Где…
wikirotation matrix
# rotation matrix ## Определение Ортогональная матрица, используемая в методе OPQ для поворота векторов перед квантованием, что улучшает качество сжатия индекса. ## Где…
wikipatch encoder
# patch encoder ## Определение Небольшая свёрточная сеть, которая обрабатывает каждый патч изображения перед квантованием в токены. Применяется в архитектуре Fuyu-8B…
wikiorthogonal transformation
# orthogonal transformation ## Определение Преобразование, применяемое в OPQ для выравнивания дисперсии компонентов вектора перед продуктовым квантованием, повышающее точность сжатия. ## Где встречается…
wikiResidual Vector Quantization
# Residual Vector Quantization ## Определение Метод многоуровневого векторного квантования, при котором остатки от предыдущего уровня квантуются на следующем, что позволяет сохранить…
wikiUnpacking
…Может замедлять инференс по сравнению с 8-битным квантованием из-за дополнительных операций распаковки. ## Где встречается - [[444. Почему 4-bit…
wikiPer-token quantization
# Per-token quantization ## Определение Метод квантования, при котором для каждого токена используются отдельные параметры масштабирования, что позволяет точнее представлять распределение…
answerКак вы выбираете ANN алгоритм под ваш use case (volume, dimensionality, budget)?
…Позволяет хранить векторы в сжатом виде (например, 4 байта вместо 1024). - **[[Вики/Асимметричное квантование\|Асимметричное квантование]] ([[Вики/ScaNN\|ScaNN]])** — [[Вики…
wikiBinary quantization
# Binary quantization ## Определение Квантование векторов до бинарных значений (0/1) для экстремального сжатия (в 32 раза) с целью уменьшения latency…
wikiMemory-optimized ANN
# Memory-optimized ANN ## Определение Подмножество ANN-алгоритмов, адаптированных для работы с ограниченной RAM (например, <16 ГБ) через квантование, дисковое хранение…
wikiKV cache compression
# KV cache compression ## Определение Методы уменьшения размера кэша ключей и значений (GQA, MQA, квантование, обрезание) для снижения потребления памяти и…
wikiper-channel scaling
# per-channel scaling ## Определение Метод квантования, при котором каждый канал нейронной сети имеет собственный коэффициент масштабирования, что повышает точность по…
wikiGroup-wise quantization
# Group-wise quantization ## Определение Техника квантования, при которой веса модели разбиваются на группы (например, по 32 или 64 элемента), и…
wikiProduct Quantization
# Product Quantization ## Определение Метод сжатия высокоразмерных векторов путём их разбиения на подвекторы и квантования каждого до центроида. Достигает коэффициента сжатия…
answerПочему KV cache растет линейно с длиной контекста и как это оптимизировать?
…Квантование KV cache [[Вики/Quantization\|Квантование]] снижает разрядность хранимых значений: **[[Вики/FP16\|FP16]]** (16 бит) → [[Вики/Quantization\|INT8]] (8 бит…
answerКак вы реализуете KV cache для 1M токенов на 8x H100?
…Квантование KV cache (INT4, FP8) [[Вики/Quantization\|Квантование]] снижает [[Вики/accuracy\|точность]] хранения K и V. [[Вики/4-bit quantization…
answerЧто такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (<16GB)?
…Основная идея — хранить векторы в сжатом виде (квантование) или на диске, а в RAM держать только компактный индекс и кэш…
wikiQuantization
# Quantization ## Определение Снижение точности представления чисел (весов или активаций) модели для уменьшения её размера и ускорения инференса. Применяется как для…
answerКак вы разворачиваете LLM в production (self-hosted)?
…Квантование (Quantisation) [[Вики/Quantization\|Квантование]] — снижение точности весов модели (например, с [[Вики/FP16\|FP16]] до [[Вики/4-bit quantization\|INT4…
answerScaNN (Google) vs HNSW — сравнение для больших масштабов (>100M векторов)?
…устройство и особенности **ScaNN (Scalable Nearest Neighbors)** — гибридный метод от Google, сочетающий иерархическую кластеризацию и анизотропное квантование. Основные компоненты 1…
answerПочему 4-bit inference иногда медленнее 8-bit?
…Почему 4-bit inference иногда медленнее 8-bit? ## Краткий тезис [[Вики/4-bit quantization\|4-bit]] [[Вики/Quantization\|квантование]] уменьшает…
answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?
…например, объединение `[[Вики/LayerNorm\|layernorm]]` + `[[Вики/Matrix multiplication\|matmul]]` в одну операцию. - [[Вики/Quantization\|Квантование]] ([[Вики/4-bit quantization\|INT4…
answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…Ключевые особенности: - [[Вики/Group-wise quantization\|Групповое квантование]]: веса делятся на группы (обычно 128 или 32 элемента), для каждой группы…
answerOPQ (Optimized Product Quantization) vs PQ — в чем разница?
…OPQ решает эту проблему, добавляя перед квантованием ортогональное преобразование (вращение), которое выравнивает дисперсию компонент, что повышает точность поиска при том…
answerКакую LLM вы выберете для "быстрых" (<200ms) простых задач классификации?
…Для достижения <200 мс применяют: - [[Вики/Paged Attention\|vLLM]] — эффективный менеджмент памяти (PagedAttention), непрерывное пакетирование, динамическое батчирование. - [[Вики/Quantization\|Квантование…
wikillama.cpp
# llama.cpp ## Определение Фреймворк для локального запуска LLM на CPU/GPU с квантованием, использует формат GGUF. Лёгкий инференс с batch…
answerКак работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?
…KV Cache Quantization и Pruning **[[Вики/8-bit quantization\|Квантование KV cache]]** до INT4/INT8 снижает занимаемую [[Вики/Memory\|память…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с векторной БД на CPU (Chroma/Qdrant)
…сравнение FAISS, Chroma, Qdrant | | 45 | Использование sentence-transformers для эмбеддингов | | 78 | Квантование LLM с GGUF и llama.cpp | | 112 | Оценка…
answerКак вы строите real-time voice agent с latency <500ms?
…минимальная, только для сглаживания джиттера. - Квантование и аппаратное ускорение: использовать GPU/TPU для ASR и LLM, CPU для TTS. - Выбор…
answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…Swap\|перестановка]] операций для лучшего использования памяти. - [[Вики/Quantization\|Квантование]]: преобразование весов и активаций из [[Вики/FP32\|FP32]] в INT8…
answerQLoRA vs LoRA — в чем разница и когда QLoRA лучше?
…LoRA, квантование, QLoRA **[[Вики/LoRA\|LoRA]] (Low‑[[Вики/LoRA rank\|Rank]] Adaptation)** — метод параметро-эффективного [[Вики/fine-tuning\|fine-tuning…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…Научиться настраивать [[Вики/FP8 quantization\|FP8-квантование]], проводить сравнение производительности и качества с базовым [[Вики/FP16\|FP16]] инференсом и добиться…
answerКак вы проектируете систему для real-time video understanding (поток с камер)?
…Оптимизация включает [[Вики/Quantization\|квантование]], [[Вики/selective pruning\|прунинг]], [[Вики/Hardware acceleration\|аппаратное ускорение]] ([[Вики/TensorRT-LLM\|TensorRT]], DeepStream) и…
answerКакие 3 книги/курса вы рекомендуете по production LLM?
…GPT-4o-mini (через API) или локальная модель (Llama 3 8B с квантованием GGUF). - **Мониторинг**: Prometheus + Grafana (latency, number of…