Поиск

answerКак вы управляете cost хранения векторной БД при миллиарде векторов?
…Product Quantization (PQ) – основное сжатие [[Вики/Product Quantization\|Product Quantization]] — метод сжатия векторов путём их разбиения на подпространства и квантования…
answerКак работает Product Quantization (PQ) для сжатия векторов?
…Зачем нужно сжатие векторов? В современных RAG-системах и поисковых движках используются **[[Вики/embedding\|эмбеддинги]]** — плотные векторы размерностью от 128…
wikiIndexIVFPQ
# IndexIVFPQ ## Определение Тип индекса FAISS, комбинирующий инвертированный файл (IVF) с продуктовым квантованием (PQ) для эффективного приближённого поиска с сжатием векторов…
answerКак вы выбираете ANN алгоритм под ваш use case (volume, dimensionality, budget)?
…млн векторов оптимален HNSW (высокая точность, latency|низкая задержка). Для 1–50 млн — IVF-PQ или HNSW-PQ (сжатие через…
answerКак вы управляете cost хранения векторной БД при миллиарде векторов?
…Формула ``` cost_per_vector = (общая стоимость хранения в месяц) / (количество векторов) ``` **Пример расчёта для 1 млрд векторов:** - PQ сжатие до…
wikiProduct Quantization
# Product Quantization ## Определение Метод сжатия высокоразмерных векторов путём их разбиения на подвекторы и квантования каждого до центроида. Достигает коэффициента сжатия…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить sharding для petabyte embeddings
…Ожидаемый результат этапа Параметры HNSW и PQ, при которых recall@10 >= 0.95, и сжатие векторов ~4x (768 * 4 байта…
answerКак работает DiskANN и когда он нужен?
…Для миллиарда векторов это может занять несколько часов. - **Точность** зависит от качества квантования (PQ). Слишком агрессивное сжатие снижает recall. - Не…
answerЧто такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (<16GB)?
…Они используют: - Квантование (Quantization) — сжатие векторов до меньшего числа бит (например, 8-битное или Quantization|product quantization). - Дисковое хранение (Disk…
answerКакую векторную БД вы выберете для production-системы с >1 млн векторов?
…Термин «PQ (Product Quantization Сжатие векторов в 8-32 раза. Хранится не сам вектор, а его код (несколько байт). Поиск…
answerКакие embedding-модели вы использовали и почему?
…intfloat/multilingual-e5 (CPU) | Легко, бесплатно | | Миллиарды векторов, мало памяти | Cohere (сжатие) или BGE-m3 с квантованием | Экономия памяти | | Edge…
answerOPQ (Optimized Product Quantization) vs PQ — в чем разница?
…Product Quantization (PQ) — базовый метод [[Вики/Product Quantization\|Product Quantization]] — это техника сжатия векторов, широко используемая в ANN-индексах (например…
answerКак вы измеряете recall@k для ANN индекса и какой порог acceptable?
…Как вы обновляете ANN индекс при добавлении новых векторов без перестроения\|231]] | Компрессия векторов (PQ) и её влияние на recall…
answerЧто такое Learned Index Structures for ANN? Новые подходы 2025-2026?
…Вики/greedy traversal\|жадный поиск]]. - **PQ (Quantization|Product Quantization)** — сжатие векторов для быстрого вычисления расстояний. Эти методы полагаются на жёсткие…
answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
…Размер состояния ограничен, поэтому при длинных контекстах происходит [[Вики/Compression\|сжатие]] и потеря деталей. --- ## 2. Ключевое преимущество: произвольный доступ к…
answerКак вы уменьшаете latency RAG-системы (время ответа)?
…Какую векторную БД вы выберете для production-системы с больше 1 млн векторов\|4]] | Векторная БД (HNSW, quantization) | | [[5. Как…
answerКак бы вы спроектировали RAG-систему для 10 000 документов с разной структурой (PDF, Word, сканы, HTML, Excel)?
…Какую векторную БД вы выберете для production-системы с больше 1 млн векторов\|4]] | Выбор векторной БД (сравнение Qdrant, Weaviate…
answerВ чем проблема «natural language bottleneck» для LLM?
…массивов, изображений, временных рядов в текст происходит [[Вики/Compression\|сжатие]] с потерями. Это и есть [[Вики/Bottleneck\|bottleneck]]. --- ## 2. Пример…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить recurrent memory для long context
…Рекомендация гибрид — кодировать каждую сессию в [[Вики/embedding\|вектор]] через [[Вики/LSTM\|GRU]], хранить пул таких векторов, а при новом…
answerКак вы индексируете видео-контент в RAG-системе?
…4 Сжатие эмбеддингов Для больших коллекций видео используйте [[Вики/Product Quantization\|Product Quantization]] (PQ) для уменьшения размера векторов без сильной…
answerЧто такое prompt caching у провайдеров (Anthropic, Google) и как его использовать?
…например, с [[Вики/Prompt compression\|prompt compression]] (сжатие промпта) для ещё большего снижения затрат. 6. Тестируйте latency: измеряйте время ответа…
answerКак работает Whisper архитектурно для ASR (Automatic Speech Recognition)?
…Однако в оригинальной статье упоминается, что свёртки выполняют «локальное [[Вики/Compression\|сжатие]]» признаков. Позже в transformer-блоках используется [[Вики/Position…
answerКак делать evaluation для long-context RAG (>100k токенов)?
…Chroma или FAISS для векторов. - Модель: любая open-source 7B+ (например, Mistral-7B-Instruct, Llama-3-8B-128k для длинного…
answerКак вы индексируете видео-контент в RAG-системе?
…для больших коллекций используйте [[Вики/Product Quantization\|Product Quantization]] (сжатие векторов) с компромиссом по точности. **Расширенная архитектура (Multi-vector index…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как вы управляете cost хранения векторной БД при миллиарде векторов?** > _Ответ:_ > > - **PQ сжатие (Product Quantization):** сжатие 1/8 от размера…