English translation is not available yet. Showing Russian content.

Что такое Quasar и как quantized verification ускоряет инференс?

Краткий тезис

Quasar — это архитектура для Agentic RAG, в которой этап verification (верификации ответов) выполняется с использованием low-bit quantization (низкобитной квантизации). В отличие от структурного pruning, который разрушает распределение логитов, квантизация сохраняет fidelity (точность) распределения, при этом вдвое уменьшая memory traffic (трафик памяти). Это даёт прирост throughput (пропускной способности) на 28% без потери качества финального ответа. Метод особенно эффективен в сценариях, где verification является узким местом пайплайна.


1. Термин: Quasar — архитектура для Agentic RAG

Quasar (предложена в 2026 году) — это фреймворк или архитектура, которая разделяет пайплайн Agentic RAG на две фазы: generation (генерация) и verification (верификация). В фазе генерации LLM создаёт черновой ответ, а в фазе verification специальная модель (или та же LLM в облегчённом режиме) проверяет его на faithfulness (фактологичность) и relevance (релевантность) по отношению к извлечённым документам.

Ключевая инновация Quasar — применение low-bit quantization (например, INT4 или INT2) исключительно к фазе verification. Это позволяет ускорить её без ущерба для качества, так как verification менее чувствителен к точности весов, чем generation.

Термин «RAG|Agentic RAG» — RAG-система, где LLM может выполнять несколько шагов (планирование, вызов инструментов, повторный поиск) для улучшения ответа. Verification — один из таких шагов.


2. Термин: Quantized Verification (квантизированная верификация)

Quantized verification — это процесс проверки ответа с помощью модели, веса которой приведены к низкой разрядности (например, INT8, INT4 или даже INT2). В Quasar эта модель является либо отдельным небольшим verifier (верификатором), либо той же LLM, но с квантизованными весами.

Зачем квантизовать именно verification

  • Verification обычно выполняется после генерации, и его latency (задержка) напрямую влияет на общее время ответа.
  • Verification-модели часто меньше по размеру (например, 7B вместо 70B), но даже они могут быть узким местом при высоких нагрузках.
  • Квантизация снижает размер модели в памяти и ускоряет матричные умножения за счёт использования integer arithmetic (целочисленной арифметики) вместо float.

Термин «Low-bit quantization» — представление весов и/или активаций с помощью меньшего числа бит (например, 4 бита вместо 16). Это уменьшает объём данных, передаваемых между памятью и вычислительным ядром (memory traffic).


3. Почему квантизация лучше pruning для verification

Structural pruning (структурная обрезка) удаляет целые нейроны, слои или головы внимания. Это может нарушить распределение логитов, особенно на этапе verification, где требуется тонкая оценка вероятностей. Квантизация, напротив, сохраняет структуру модели и лишь снижает точность представления чисел.

ХарактеристикаStructural pruningLow-bit quantization
Влияние на распределение логитовЛомает (изменяет форму)Сохраняет fidelity (масштабирует, но не искажает)
УскорениеЗависит от разреженностиПредсказуемое (2x-4x)
Совместимость с hardwareТребует поддержки разреженностиШирокая поддержка (GPU, CPU, NPU)
Риск потери качестваВысокий при агрессивной обрезкеНизкий при правильной калибровке

Термин «Fidelity распределения логитов» — степень, с которой квантизованная модель сохраняет относительные вероятности классов (или токенов) по сравнению с full-precision моделью. Квантизация вносит равномерный шум, который не смещает ранжирование, в то время как pruning может удалить важные нейроны, отвечающие за редкие, но критичные паттерны.


4. Как quantized verification ускоряет инференс: механизм

Ускорение достигается за счёт двух факторов:

  1. Снижение memory traffic (трафика памяти). При квантизации веса занимают в 2-4 раза меньше места. Например, INT4 вместо FP16 уменьшает объём вдвое. Поскольку инференс LLM часто memory-bound (ограничен пропускной способностью памяти), уменьшение объёма данных, передаваемых из DRAM в вычислительные ядра, напрямую сокращает latency.

  2. Использование integer compute (целочисленных вычислений). Современные GPU (например, NVIDIA с тензорными ядрами) поддерживают INT8 и INT4 операции, которые выполняются быстрее, чем FP16/FP32. Это даёт дополнительный прирост throughput (количество запросов в секунду).

Формула оценки ускорения (упрощённо):

Speedup ≈ (memory_traffic_full_precision / memory_traffic_quantized) * (compute_efficiency_factor)

Для INT4: memory_traffic снижается в 4 раза, но compute_efficiency_factor может быть ~0.7-0.9 из-за накладных расходов на деквантизацию. Итоговое ускорение ~2-3x.

В Quasar конкретно для verification фазы достигается +28% throughput (пропускной способности) без потери качества. Это означает, что при той же задержке на один запрос система может обрабатывать на 28% больше запросов в секунду.


5. Результаты и бенчмарки

Согласно оригинальной работе Quasar (2026), на наборе бенчмарков для Agentic RAG (например, HotPotQA, MuSiQue, 2WikiMultihop) были получены следующие результаты:

МетрикаFull-precision verificationQuantized verification (INT4)Изменение
Throughput (запросов/с)100128+28%
Latency verification (мс)5039-22%
F1 score (ответ)0.720.720%
Faithfulness (LLM-as-judge)0.850.84-1% (стат. незначимо)

Термин «LLM-as-judge» — использование отдельной LLM (например, GPT-4) для оценки качества ответов по шкале faithfulness, relevance и coherence.


6. Применение в Agentic RAG: почему verification — узкое место

В типичном Agentic RAG пайплайне:

  1. Retrieval → 2. Generation (черновик) → 3. Verification → 4. (опционально) исправление → 5. Финальный ответ.

Verification может вызываться несколько раз (например, для каждого шага multi-hop reasoning). Если verification медленный, общее время ответа растёт. Quasar решает эту проблему, делая verification «лёгким» за счёт квантизации, при этом generation остаётся full-precision для сохранения качества.

Пример сценария Система для юридических консультаций. После генерации ответа verification проверяет, что все ссылки на законы корректны. Квантизация позволяет выполнять эту проверку в реальном времени без заметной задержки для пользователя.


7. Технические детали: low-bit quantization в Quasar

Quasar использует post-training quantization (PTQ) с калибровкой на небольшом датасете verification-примеров. Конкретные техники:

  • Weight-only quantization (квантизация только весов) — активации остаются в FP16, что упрощает реализацию.
  • Symmetric quantization (симметричная квантизация) для INT4: w_q = round(w / scale), где scale = max(|w|) / (2^(bits-1) - 1).
  • Group-wise quantization (групповая квантизация) — веса делятся на группы (например, по 32 или 64 элемента), для каждой группы свой scale. Это снижает ошибку квантизации.

Почему не используется quantization-aware training (QAT)? QAT требует дообучения, что дорого. PTQ достаточно для verification, так как задача менее чувствительна к точности.

Термин «Post-training quantization» — метод, при котором модель квантизуется после завершения обучения, без дополнительного fine-tuning.


8. Сравнение с другими методами ускорения verification

МетодУскорениеПотеря качестваСложность внедрения
Quantized verification (Quasar)+28% throughput~0%Низкая (PTQ)
Knowledge distillation (дистилляция в маленькую модель)+50-100%2-5%Высокая (обучение студента)
Early exiting (ранний выход)+20-40%1-3%Средняя (модификация архитектуры)
Pruning (обрезка)+10-30%1-5%Средняя (требует fine-tuning)

Quasar выигрывает за счёт простоты и сохранения качества, хотя уступает дистилляции в максимальном ускорении.


9. Ограничения и когда не использовать quantized verification

  • Чувствительные задачи: если verification требует высокой точности (например, медицинская диагностика), даже 1% потери faithfulness может быть неприемлем. В таких случаях лучше использовать full-precision или QAT.
  • Hardware без поддержки INT4: старые GPU (V100) не имеют тензорных ядер для INT4, ускорение будет меньше.
  • Сценарии с очень короткими verification-запросами: если verification обрабатывает всего несколько токенов, накладные расходы на деквантизацию могут перевесить выгоду.
  • Динамическое изменение распределения: если данные verification сильно отличаются от калибровочного датасета, ошибка квантизации может возрасти.

Пет-проект для закрепления

Задача: Реализовать прототип quantized verification для RAG-системы на основе небольшой LLM (например, Phi-3-mini или Llama-3.2-1B).

Инструменты:

Шаги:

  1. Собрать датасет из 100-200 вопросов с документами и эталонными ответами (можно взять HotPotQA).
  2. Реализовать пайплайн: retrieval (например, ChromaDB + all-MiniLM-L6-v2) → generation (full-precision Phi-3) → verification (та же модель, но квантизованная).
  3. Квантизовать модель до INT4 с помощью bitsandbytes (функция quantize_4bit).
  4. Сравнить latency и throughput verification для full-precision и INT4.
  5. Оценить faithfulness ответов с помощью RAGAS (использовать GPT-4 как judge).
  6. Построить график: throughput vs. quality.

Ожидаемый результат: Вы увидите ускорение verification на 20-30% при разнице в faithfulness менее 1%. Это подтвердит концепцию Quasar.


Связь с другими вопросами

ВопросТема
161Что такое Agentic RAG и какие паттерны существуют?
163Как работает multi-hop reasoning в Agentic RAG?
164Какие метрики качества для Agentic RAG?
155Как ускорить инференс LLM в RAG?
158Что такое speculative decoding и как он ускоряет генерацию?
160Какие техники оптимизации памяти для LLM?

Навигация