Поиск

  • wikiINT8

    # INT8 ## Определение 8-битный целочисленный формат, поддерживаемый Tensor Cores, используемый для квантования моделей с целью уменьшения размера и ускорения инференса…

  • wikiLLM.int8

    # LLM.int8 ## Определение Метод 8-битной квантизации, при котором аномальные значения (outliers) сохраняются в FP16 для минимизации потери точности. ## Где…

  • answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?

    INT8 (Integer 8-bit) [[Вики/Quantization\|INT8]] — целочисленное квантование. Веса и активации преобразуются в 8-битные целые числа (обычно со…

  • wiki8-bit quantization

    # 8-bit quantization ## Определение Техника сжатия модели путём представления весов и/или KV-кэша в 8-битном целочисленном формате, что…

  • wikiunderflow

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiQuantization-aware training

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiPost-training quantization

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikigradient scaling

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiCPU

    # CPU ## Определение Центральный процессор, выполняющий общие вычисления; в ML применяется для инференса с квантизацией INT8/GGUF. ## Где встречается - [[800+ вопросов…

  • wikiTransformer Engine

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiActivation quantization

    # Activation quantization ## Определение Квантование промежуточных значений (активаций), обычно до INT8. ## Где встречается - [[444. Почему 4-bit inference иногда медленнее 8…

  • wikiGGUF

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • answerКак вы оптимизируете embedding генерацию для большого количества документов?

    …После квантизации можно использовать [[Вики/FP16\|FP16]] (2 байта) или [[Вики/8-bit quantization\|INT8]] (1 байт). ### Зачем нужно? - Уменьшает…

  • answerЧто такое ONNX Runtime и когда он выгоден для LLM?

    …Для [[Вики/GPT-4o\|LLM]] часто используют [[Вики/8-bit quantization\|INT8]] квантизацию, снижающую размер модели в 2 раза при…

  • wiki8-bit

    # 8-bit ## Определение Квантование весов модели до 8-битных чисел (INT8) для снижения потребления памяти и ускорения инференса за счёт…

  • wikiIndexScalarQuantizer

    # IndexScalarQuantizer ## Определение Индекс Faiss, использующий скалярное квантование (int8) для сжатия векторов. ## Где встречается - [[232. Что такое Memory-optimized ANN и…

  • wikiCUDA Execution Provider

    …Поддерживает FP16 и INT8, оптимизирован для инференса. ## Где встречается - [[320. Что такое ONNX Runtime и когда он выгоден для LLM…

  • wiki8-bit inference

    # 8-bit inference ## Определение Инференс модели с весами, отквантованными до 8 бит. В некоторых случаях может быть медленнее 4-битного…

  • answerПочему 4-bit inference иногда медленнее 8-bit?

    …Для [[Вики/4-bit quantization\|INT4]] этот [[Вики/overhead\|overhead]] больше, чем для [[Вики/8-bit quantization\|INT8]], поэтому общее…

  • wikiOpenVINO

    …Поддерживает INT8-квантизацию и оптимизирован для высокой производительности на Intel-архитектурах. ## Где встречается - [[320. Что такое ONNX Runtime и когда…

  • wikiDynamic Quantization

    # Dynamic Quantization ## Определение Метод квантизации, при котором веса модели преобразуются в INT8 при загрузке, а активации остаются в FP32; прост…

  • wikiTensor Cores

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikillama.cpp

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikibitsandbytes

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiGPTQ

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiAWQ

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • answerПочему KV cache растет линейно с длиной контекста и как это оптимизировать?

    …Квантование KV cache [[Вики/Quantization\|Квантование]] снижает разрядность хранимых значений: **[[Вики/FP16\|FP16]]** (16 бит) → [[Вики/Quantization\|INT8]] (8 бит…

  • answerКак вы делаете длинный контекст для RAG (100k+ токенов в контексте)?

    …KV cache quantization (INT4/INT8) [[Вики/KV-cache\|KV cache]] — это матрицы ключей (K) и значений (V) для каждого слоя…

  • answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?

    …преобразование весов и активаций из [[Вики/FP32\|FP32]] в INT8/FP16 для ускорения. - [[Вики/code generation\|Генерация кода]]: создание низкоуровневого…

  • answerКак работают Tensor Cores в H100/B200 и для чего они нужны?

    …Использовать типы данных с плавающей точкой половинной точности (FP16, BF16) или ниже (FP8, INT8). 2. Вызывать стандартные операции линейной алгебры…

  • wikiQuantization

    # Quantization ## Определение Снижение точности представления чисел (весов или активаций) модели для уменьшения её размера и ускорения инференса. Применяется как для…

  • answerКак вы уменьшаете latency RAG-системы (время ответа)?

    …Как вы обрабатываете запросы, на которые нет ответа в документах|8]]-bit integer|Термин «INT8» (8-bit integer]] Целое число…

  • wikimixed precision training

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • answerКак устроен KV cache? Почему он bottleneck?

    …Это уменьшает размер в 2–4 раза (INT8: 42 ГБ → 21 ГБ; INT4: ~10.5 ГБ), но требует дополнительных этапов…

  • answerКак сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?

    …Лучше адаптирует уровни под реальное [[Вики/probability distribution\|распределение]], чем линейная 4-bit. - [[Вики/LLM.int8\|LLM.int8]]: для 8…

  • answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?

    …графа; генерация через собственный бэкенд | | Поддержка квантования | INT8, FP16 (через проходы) | INT4, INT8, FP8, AWQ, GPTQ | | Динамические формы | Поддерживаются (JIT…

  • answerКак вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)?

    …pipe) | Интенсивные вычисления (GEMM) | ncu | Использовать Tensor Cores, FP16/INT8 quantization | --- ## 8. Пример профилирования LLM serving с vLLM [[Вики/Scenario…

  • answerКак вы строите real-time voice agent с latency <500ms?

    …Варианты - [[Вики/Llama-3-1B\|Llama-3-1B]] (1.3B параметров) — [[Вики/quantized\|quantized]] (INT4/INT8) даёт [[Вики/Latency\|latency…

  • answerЧто такое grouped-query attention (GQA) как компромисс для long context?

    …Если дополнительно применить [[Вики/KV-cache\|KV-кэш]] [[Вики/Quantization\|quantization]] (например, до [[Вики/8-bit quantization\|INT8]]), можно получить…

  • answerКак вы снижаете стоимость LLM в production на 50%+?

    …Квантизация модели Снижение точности весов (с [[Вики/FP16\|FP16]] до INT8/INT4) уменьшает размер модели и [[Вики/memory footprint\|потребление…

  • answerКак вы деплоите LLM с TensorRT-LLM в production?

    …Оптимизации при сборке engine ### 3.1 Квантизация TensorRT-LLM поддерживает [[Вики/FP8 quantization\|FP8]], [[Вики/INT8\|INT8]], [[Вики/INT4\|INT4…

  • answerКак работает speculative decoding? Как выбрать draft модель?

    …EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.\|441]] | Квантизация моделей (INT8, NF4) | | [[442. Что такое prefix…

  • answerКак работает whisper.cpp для локального ASR с low latency?

    …весов (например, с [[Вики/FP32\|FP32]] до [[Вики/Quantization\|INT8]] или [[Вики/Quantization\|INT4]]) для уменьшения размера модели и ускорения…

  • answerКак работает инициализация весов в LLM (Xavier, Kaiming, почему важна)?

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать\|666]] | Оптимизаторы (Adam, AdamW) и их взаимодействие с инициализацией | | [[667…

  • answerЧто такое Quasar и как quantized verification ускоряет инференс?

    …Современные [[Вики/GPU\|GPU]] (например, NVIDIA с тензорными ядрами) поддерживают [[Вики/8-bit quantization\|INT8]] и [[Вики/4-bit quantization…

  • answerTensorRT-LLM vs vLLM — сравнение для production deployment?

    …можно загрузить любую модель Hugging Face, донастроить через API | | Поддержка квантизации | FP8, INT4, INT8 (с калибровкой) | INT4, INT8 (через AWQ…

  • answerКак устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс?

    …ускорение в 2–4 раза и линейная сложность по памяти. ### 5.3 Quantization (квантизация) Снижение точности весов (FP16 → INT8/FP4…

  • answerКак вы обеспечиваете низкую задержку (<500ms) для LLM?

    …Вики/Quantization\|Quantization]] — снижение точности весов модели (например, FP16 → INT8, INT4). Уменьшает размер модели и время forward pass. | Тип квантования…

  • answerЧто такое FP8 инференс на H100 (Transformer Engine)?

    …448 | низкая, но достаточная | 4x (vs FP32) | инференс с Transformer Engine | | INT8 | 8 | -128 .. 127 | низкая, чувствителен к выбросам | 4x…

  • answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?

    …8‑битная (LLM.int8()) и 4‑битная (NF4) квантизация с нулевым смещением. Хороша для прототипирования, но медленнее специальных форматов. - [[Вики…