Поиск

wiki4-bit quantization
# 4-bit quantization ## Определение Техника сжатия модели, при которой веса представляются 4 битами. Используется в QLoRA для уменьшения потребления памяти…
wikidistribution fidelity
# distribution fidelity ## Определение Мера сохранения исходного распределения логитов модели после применения методов сжатия, таких как квантизация; важна для качества инференса…
wikibitsandbytes 4-bit quantization
# bitsandbytes 4-bit quantization ## Определение Метод снижения потребления памяти GPU за счёт квантизации модели до 4-битной точности, позволяющий одновременно…
wikiSymmetric quantization
# Symmetric quantization ## Определение Метод квантизации, где w_q = round(w / scale), scale = max(|w|) / (2^(bits-1) - 1), обеспечивающий симметричное…
wikiWeight-only quantization
# Weight-only quantization ## Определение Квантизация только весов модели с сохранением активаций в FP16. Позволяет ускорить инференс и уменьшить потребление памяти…
wikilow-bit quantization
# low-bit quantization ## Определение Представление весов и/или активаций модели с использованием меньшего числа бит (например, 4 бита), что ускоряет…
answerКак сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?
…Квантизация (Quantization) в LLM [[Вики/Quantization\|Квантизация]] — это процесс отображения непрерывных значений весов ([[Вики/Quantization\|FP16]], [[Вики/FP32\|FP32]]) в…
answerЧем AWQ отличается от GPTQ?
…Квантизация (Quantization) в контексте LLM [[Вики/Quantization\|Квантизация]] — это процесс уменьшения точности представления числовых значений (весов и/или активаций) модели…
answerЧто такое Quasar и как quantized verification ускоряет инференс?
…В отличие от структурного [[Вики/duplicate detection\|pruning]], который разрушает [[Вики/probability distribution\|распределение]] логитов, [[Вики/Quantization\|квантизация]] сохраняет [[Вики…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить GPTQ vs AWQ на reasoning задачах
…Квантизация GPTQ и AWQ (2–3 часа) Действия 1. [[Вики/GPTQ\|GPTQ]] [[Вики/Quantization\|квантизация]] (4-bit, [[Вики/Group size…
wikiGroup-wise quantization
# Group-wise quantization ## Определение Техника квантования, при которой веса модели разбиваются на группы (например, по 32 или 64 элемента), и…
answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…Что такое квантизация моделей [[Вики/Quantization\|Квантизация]] — это процесс приведения весов и/или активаций нейронной сети из формата с плавающей…
answerКак вы деплоите LLM с TensorRT-LLM в production?
…Ключевые преимущества — низкая [[Вики/Latency\|latency]], высокая [[Вики/throughput\|throughput]] и поддержка продвинутых оптимизаций ([[Вики/Quantization\|квантизация]], [[Вики/continuous batching…
wikiPost-training quantization
# Post-training quantization ## Определение Метод квантизации модели после завершения обучения без дополнительного fine-tuning; включает GPTQ, AWQ и выполняется на…
answerКак работает QLoRA (Quantized LoRA) для training?
…Квантизация (Quantization) — снижение точности весов [[Вики/Quantization\|Квантизация]] — это процесс преобразования чисел с плавающей точкой (например, [[Вики/Quantization\|FP16]]) в…
answerКак вы оптимизируете embedding генерацию для большого количества документов?
…Quantization — снижение точности эмбеддингов **Термин: [[Вики/Quantization\|Quantization]] ([[Вики/Quantization\|квантизация]])** — это уменьшение битности чисел, представляющих [[Вики/embedding\|эмбеддинги]]. Обычно…
answerКак работает quantization-aware scaling в AWQ для защиты важных весов?
…Зачем нужна квантизация LLM [[Вики/Quantization\|Квантизация]] снижает [[Вики/accuracy\|точность]] представления весов (например, с 16 бит до 4 бит…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настройка AWQ квантизации для LLM
…2. [[Вики/Quantization\|Квантизация]] будет медленной, но процесс тот же. 3. Для замера памяти используйте `[[Вики/psutil\|psutil]]` вместо `[[Вики…
answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…запуском. - [[Вики/Quantization\|Квантизация]] — [[Вики/ONNX Runtime\|ORT]] поддерживает [[Вики/Dynamic Quantization\|Dynamic Quantization]] ([[Вики/Quantization\|квантизация]] весов на лету…
answerКак устроен KV cache? Почему он bottleneck?
…Ожидаемый результат График, наглядно показывающий, как GQA и квантизация снижают размер, и осознание, что при 128k токенов даже с GQA…
wikiQuantization
# Quantization ## Определение Снижение точности представления чисел (весов или активаций) модели для уменьшения её размера и ускорения инференса. Применяется как для…
answerGGUF vs GPTQ vs AWQ — сравнение форматов квантизации для локального запуска?
…Что такое квантизация и зачем она нужна? [[Вики/Quantization\|Квантизация]] — это процесс снижения точности весов модели (например, с 16-битных…
wiki8-bit quantization
# 8-bit quantization ## Определение Техника сжатия модели путём представления весов и/или KV-кэша в 8-битном целочисленном формате, что…
answerКак работает whisper.cpp для локального ASR с low latency?
…C/C++, GGML/GGUF, квантизация [[Вики/whisper.cpp\|whisper.cpp]] — это реимплементация [[Вики/Whisper\|Whisper]] на C/C++ без зависимостей…
answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)\|321]] | Квантизация моделей (FP8, INT4) | | [[322. Что такое…
answerКак вы снижаете стоимость LLM в production на 50%+?
…Дополнительные техники: **[[Вики/Quantization\|квантизация]]**, [[Вики/Prompt compression\|сжатие промптов]], [[Вики/batch size\|batch processing]], дешёвые провайдеры и **[[Вики/speculative…
answerКак работает speculative decoding? Как выбрать draft модель?
…EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.\|441]] | Квантизация моделей (INT8, NF4) | | [[442. Что такое prefix…
answerКак вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов?
…Влияние квантизации (Model Quantization) [[Вики/Quantization\|Квантизация]] – снижение точности весов модели (например, с [[Вики/FP16\|FP16]] до [[Вики/8-bit…
answerКак устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс?
…ускорение в 2–4 раза и линейная сложность по памяти. ### 5.3 Quantization (квантизация) Снижение точности весов (FP16 → INT8/FP4…
answerКак вы проектируете систему для real-time video understanding (поток с камеры)?
…окна памяти, квантизация | | LLM decode | 100–1000 мс | Streaming, speculative decoding | ### 7.2 Оптимизации - [[Вики/Quantization\|Квантизация]] LLM (4-bit…
answerКак вы делаете длинный контекст для RAG (100k+ токенов в контексте)?
…При длинном контексте [[Вики/KV-cache\|KV cache]] становится узким местом по памяти. [[Вики/Quantization\|Квантизация]] ([[Вики/Quantization\|quantization]]) — преобразование…
answerЧто такое kernel fusion и как он применяется в LLM serving?
…Как работают CUDA streams и как они помогают оверлапить compute и communication\|308]] | Quantization (квантизация) для ускорения | | [[310. Как вы…
answerЧто такое CUDA graphs и как они ускоряют LLM инференс?
…Что такое MIG (Multi-Instance GPU) и когда он полезен для LLM\|315]] | Квантизация для ускорения инференса | | [[316. Как работает…
answerКак работает Torch Compile (torch.compile) и в чем его ограничения для LLM?
…Что такое MLIR и как он используется в IREETensorRT-LLM\|317]] | Quantization (квантизация) моделей | | [[318. TensorRT-LLM vs vLLM — сравнение…
answerЧто такое Parameter-Efficient Fine-Tuning (PEFT) и какие методы вы знаете?
…нормальных распределений. - **[[Вики/Double Quantization\|Double quantization]]** – [[Вики/Quantization\|квантизация]] констант шкалирования. - **[[Вики/Paged Optimizers\|Paged optimizers]]** – [[Вики/Offloading\|сброс…
answerКак работает FlashAttention-3 математически?
…FP8 поддержка и квантизация ошибок [[Вики/H100\|Hopper]] поддерживает два формата [[Вики/FP8\|FP8]]: - [[Вики/Quantization\|E4M3]] (4 бита экспонента…
answerКакие методы fine-tuning вы знаете и какой используете чаще всего?
…можно использовать [[Вики/QLoRA\|QLoRA]] (4-битная [[Вики/Quantization\|квантизация]]). Когда использовать [[Вики/default values\|Default]] choice для 90% задач…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать speculative decoding с draft моделью
…модель от target-модели в speculative decoding? | | 310 | Как квантизация влияет на скорость и качество генерации? | | 412 | Что такое acceptance…
answerЧто такое LoRA для training (инференс уже знаем)?
…QLoRA, LoRA merging, DoRA - [[Вики/QLoRA\|QLoRA]] (Dettmers et al., 2023): [[Вики/Quantization\|квантизация]] базовой модели до 4 бит + [[Вики…
answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…Что такое continuous batching и как оно отличается от static batching Как это реализовано в vLLMTGI\|201]] | Квантизация моделей | | [[202…
answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
…Почему vLLM - [[Вики/Paged Attention\|PagedAttention]] — эффективное управление памятью KV-cache. - **Continuous batching** — утилизация GPU до 95%. - Поддержка **quantization** (квантизация…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: vLLM кластер на 4 GPU
…если модель позволяет – квантизация `--dtype half` или `--quantization awq`. - [[Вики/Planner\|Scheduler]]: `--use-v2-block-manager` (если модель поддерживает PagedAttention…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune QLoRA на 1 GPU
…Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | Base model | Hugging Face Transformers, AutoModelForCausalLM | Загрузка и квантизация модели 70B | | 4-bit quantization | `bitsandbytes…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: LoRA для function calling
…TRL | | 304 | Оценка качества function calling (метрики) | | 411 | QLoRA: квантизация и обучение в 4-bit | | 538 | Как сгенерировать синтетический датасет…
answerКак вы выбираете между online и batch инференсом для LLM?
…кэширование KV для общих префиксов (например, системных промптов). ### 3.4 Quantization (квантизация) [[Вики/Quantization\|Quantization]] — снижение точности весов модели (FP16…
answerКак работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100?
…Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM\|703]] | FP8 квантизация и её влияние на…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Чем AWQ отличается от GPTQ?** *(Вопрос 209 был, углубим)* > *Ответ:* > - **GPTQ:** общая квантизация всех весов, оптимизация через Hessian. Хорош для…