Поиск

wikiINT8
# INT8 ## Определение 8-битный целочисленный формат, поддерживаемый Tensor Cores, используемый для квантования моделей с целью уменьшения размера и ускорения инференса…
wikiLLM.int8
# LLM.int8 ## Определение Метод 8-битной квантизации, при котором аномальные значения (outliers) сохраняются в FP16 для минимизации потери точности. ## Где…
answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…INT8 (Integer 8-bit) [[Вики/Quantization\|INT8]] — целочисленное квантование. Веса и активации преобразуются в 8-битные целые числа (обычно со…
wiki8-bit quantization
# 8-bit quantization ## Определение Техника сжатия модели путём представления весов и/или KV-кэша в 8-битном целочисленном формате, что…
wikiunderflow
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiQuantization-aware training
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiPost-training quantization
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikigradient scaling
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiCPU
# CPU ## Определение Центральный процессор, выполняющий общие вычисления; в ML применяется для инференса с квантизацией INT8/GGUF. ## Где встречается - [[800+ вопросов…
wikiTransformer Engine
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiActivation quantization
# Activation quantization ## Определение Квантование промежуточных значений (активаций), обычно до INT8. ## Где встречается - [[444. Почему 4-bit inference иногда медленнее 8…
wikiGGUF
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
answerКак вы оптимизируете embedding генерацию для большого количества документов?
…После квантизации можно использовать [[Вики/FP16\|FP16]] (2 байта) или [[Вики/8-bit quantization\|INT8]] (1 байт). ### Зачем нужно? - Уменьшает…
answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…Для [[Вики/GPT-4o\|LLM]] часто используют [[Вики/8-bit quantization\|INT8]] квантизацию, снижающую размер модели в 2 раза при…
wiki8-bit
# 8-bit ## Определение Квантование весов модели до 8-битных чисел (INT8) для снижения потребления памяти и ускорения инференса за счёт…
wikiIndexScalarQuantizer
# IndexScalarQuantizer ## Определение Индекс Faiss, использующий скалярное квантование (int8) для сжатия векторов. ## Где встречается - [[232. Что такое Memory-optimized ANN и…
wikiCUDA Execution Provider
…Поддерживает FP16 и INT8, оптимизирован для инференса. ## Где встречается - [[320. Что такое ONNX Runtime и когда он выгоден для LLM…
wiki8-bit inference
# 8-bit inference ## Определение Инференс модели с весами, отквантованными до 8 бит. В некоторых случаях может быть медленнее 4-битного…
answerПочему 4-bit inference иногда медленнее 8-bit?
…Для [[Вики/4-bit quantization\|INT4]] этот [[Вики/overhead\|overhead]] больше, чем для [[Вики/8-bit quantization\|INT8]], поэтому общее…
wikiOpenVINO
…Поддерживает INT8-квантизацию и оптимизирован для высокой производительности на Intel-архитектурах. ## Где встречается - [[320. Что такое ONNX Runtime и когда…
wikiDynamic Quantization
# Dynamic Quantization ## Определение Метод квантизации, при котором веса модели преобразуются в INT8 при загрузке, а активации остаются в FP32; прост…
wikiTensor Cores
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikillama.cpp
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikibitsandbytes
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiGPTQ
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiAWQ
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
answerПочему KV cache растет линейно с длиной контекста и как это оптимизировать?
…Квантование KV cache [[Вики/Quantization\|Квантование]] снижает разрядность хранимых значений: **[[Вики/FP16\|FP16]]** (16 бит) → [[Вики/Quantization\|INT8]] (8 бит…
answerКак вы делаете длинный контекст для RAG (100k+ токенов в контексте)?
…KV cache quantization (INT4/INT8) [[Вики/KV-cache\|KV cache]] — это матрицы ключей (K) и значений (V) для каждого слоя…
answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…преобразование весов и активаций из [[Вики/FP32\|FP32]] в INT8/FP16 для ускорения. - [[Вики/code generation\|Генерация кода]]: создание низкоуровневого…
answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…Использовать типы данных с плавающей точкой половинной точности (FP16, BF16) или ниже (FP8, INT8). 2. Вызывать стандартные операции линейной алгебры…
wikiQuantization
# Quantization ## Определение Снижение точности представления чисел (весов или активаций) модели для уменьшения её размера и ускорения инференса. Применяется как для…
answerКак вы уменьшаете latency RAG-системы (время ответа)?
…Как вы обрабатываете запросы, на которые нет ответа в документах|8]]-bit integer|Термин «INT8» (8-bit integer]] Целое число…
wikimixed precision training
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
answerКак устроен KV cache? Почему он bottleneck?
…Это уменьшает размер в 2–4 раза (INT8: 42 ГБ → 21 ГБ; INT4: ~10.5 ГБ), но требует дополнительных этапов…
answerКак сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?
…Лучше адаптирует уровни под реальное [[Вики/probability distribution\|распределение]], чем линейная 4-bit. - [[Вики/LLM.int8\|LLM.int8]]: для 8…
answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?
…графа; генерация через собственный бэкенд | | Поддержка квантования | INT8, FP16 (через проходы) | INT4, INT8, FP8, AWQ, GPTQ | | Динамические формы | Поддерживаются (JIT…
answerКак вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)?
…pipe) | Интенсивные вычисления (GEMM) | ncu | Использовать Tensor Cores, FP16/INT8 quantization | --- ## 8. Пример профилирования LLM serving с vLLM [[Вики/Scenario…
answerКак вы строите real-time voice agent с latency <500ms?
…Варианты - [[Вики/Llama-3-1B\|Llama-3-1B]] (1.3B параметров) — [[Вики/quantized\|quantized]] (INT4/INT8) даёт [[Вики/Latency\|latency…
answerЧто такое grouped-query attention (GQA) как компромисс для long context?
…Если дополнительно применить [[Вики/KV-cache\|KV-кэш]] [[Вики/Quantization\|quantization]] (например, до [[Вики/8-bit quantization\|INT8]]), можно получить…
answerКак вы снижаете стоимость LLM в production на 50%+?
…Квантизация модели Снижение точности весов (с [[Вики/FP16\|FP16]] до INT8/INT4) уменьшает размер модели и [[Вики/memory footprint\|потребление…
answerКак вы деплоите LLM с TensorRT-LLM в production?
…Оптимизации при сборке engine ### 3.1 Квантизация TensorRT-LLM поддерживает [[Вики/FP8 quantization\|FP8]], [[Вики/INT8\|INT8]], [[Вики/INT4\|INT4…
answerКак работает speculative decoding? Как выбрать draft модель?
…EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.\|441]] | Квантизация моделей (INT8, NF4) | | [[442. Что такое prefix…
answerКак работает whisper.cpp для локального ASR с low latency?
…весов (например, с [[Вики/FP32\|FP32]] до [[Вики/Quantization\|INT8]] или [[Вики/Quantization\|INT4]]) для уменьшения размера модели и ускорения…
answerКак работает инициализация весов в LLM (Xavier, Kaiming, почему важна)?
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать\|666]] | Оптимизаторы (Adam, AdamW) и их взаимодействие с инициализацией | | [[667…
answerЧто такое Quasar и как quantized verification ускоряет инференс?
…Современные [[Вики/GPU\|GPU]] (например, NVIDIA с тензорными ядрами) поддерживают [[Вики/8-bit quantization\|INT8]] и [[Вики/4-bit quantization…
answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…можно загрузить любую модель Hugging Face, донастроить через API | | Поддержка квантизации | FP8, INT4, INT8 (с калибровкой) | INT4, INT8 (через AWQ…
answerКак устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс?
…ускорение в 2–4 раза и линейная сложность по памяти. ### 5.3 Quantization (квантизация) Снижение точности весов (FP16 → INT8/FP4…
answerКак вы обеспечиваете низкую задержку (<500ms) для LLM?
…Вики/Quantization\|Quantization]] — снижение точности весов модели (например, FP16 → INT8, INT4). Уменьшает размер модели и время forward pass. | Тип квантования…
answerЧто такое FP8 инференс на H100 (Transformer Engine)?
…448 | низкая, но достаточная | 4x (vs FP32) | инференс с Transformer Engine | | INT8 | 8 | -128 .. 127 | низкая, чувствителен к выбросам | 4x…
answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…8‑битная (LLM.int8()) и 4‑битная (NF4) квантизация с нулевым смещением. Хороша для прототипирования, но медленнее специальных форматов. - [[Вики…