Поиск

  • answerПочему BF16 лучше FP16 для training?

    …Почему BF16 лучше FP16 для training? ## Краткий тезис **BF16 (bfloat16)** превосходит **FP16 (float16)** для обучения нейросетей благодаря более широкому динамическому…

  • wikiunderflow

    # underflow ## Определение Ситуация, когда числа становятся слишком малыми для представления в используемом формате (например, FP16) и округляются до нуля, теряя…

  • answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?

    …Скопировать master‑веса в [[Вики/FP16\|FP16]] (конвертация). 2. Выполнить forward/backward в [[Вики/FP16\|FP16]], получив градиенты в [[Вики…

  • wikigradient scaling

    # gradient scaling ## Определение Техника масштабирования градиентов перед приведением к низкой точности (FP16/FP8) для предотвращения underflow; используется в mixed precision…

  • wikioverflow

    # overflow ## Определение Числовое переполнение в вычислениях, когда значение градиента или активации превышает максимально представимое число формата (например, FP16), приводя к…

  • answerКак работает tensor parallelism с FP8 в vLLM?

    …Перед [[Вики/AllReduce\|AllReduce]] [[Вики/logits\|логиты]] преобразуются в [[Вики/FP16\|FP16]]. 3. [[Вики/AllReduce\|AllReduce]] суммирует FP16-тензоры от…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100

    …Ожидаемый результат этапа - Среднее [[Вики/Latency\|время инференса]] [[Вики/FP16\|FP16]] (`T_fp16`). - [[Вики/Perplexity\|Perplexity]] [[Вики/FP16\|FP16]] (`PPL…

  • wikiFP32 master weights

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16

  • answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?

    FP16 (Float16 / Half Precision) **[[Вики/FP16\|FP16]]** — 16-битный формат с плавающей точкой по стандарту IEEE 754. Структура: 1 бит…

  • wikiDynamic range

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiMachine epsilon

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikitorch.cuda.amp.autocast

    # torch.cuda.amp.autocast ## Определение Контекстный менеджер PyTorch, автоматически выбирающий формат FP16/BF16 для выполнения операций forward в рамках mixed…

  • wikimixed precision training

    # mixed precision training ## Определение Mixed precision training — техника использования разных форматов чисел (FP16, BF16, FP32) для ускорения обучения и инференса…

  • wikiFP16

    # FP16 ## Определение Формат чисел с плавающей точкой половинной точности (16 бит), используемый для уменьшения памяти и ускорения вычислений, например, для…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настройка AWQ квантизации для LLM

    …Ключевой результат Квантизированная [[Вики/model\|модель]] с качеством не ниже 99% от [[Вики/FP16\|FP16]] при снижении потребления [[Вики/GPU…

  • answerЧто такое FP8 инференс на H100 (Transformer Engine)?

    …Пример псевдокода: ```python # Упрощённая логика Transformer Engine def fp8_gemm(A_fp16, B_fp16): scale_A = max(abs(A_fp16

  • answerКак работают Tensor Cores в H100/B200 и для чего они нужны?

    …входные матрицы могут быть в [[Вики/FP16\|FP16]] или [[Вики/BF16\|BF16]], а накопление ведётся в [[Вики/FP32\|FP32]]. Это…

  • answerКак сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?

    …чуть ниже GPTQ/AWQ (97% от [[Вики/FP16\|FP16]] против 98-99%), но зато **работает на любом железе**. [[Вики/GGUF…

  • wikiTFLOPS

    …Указывается для разных типов данных (FP16, FP8) и важна при выборе аппаратного обеспечения для инференса и обучения LLM. ## Где встречается…

  • answerКак работает FP8 quantization на H100 (Transformer Engine)?

    …могут оставаться в [[Вики/FP8\|FP8]] или [[Вики/FP16\|FP16]] в зависимости от реализации; для точности часто градиенты хранят в…

  • answerПочему training 70B модели требует optimizer sharding (ZeRO-3)?

    …Расчёт памяти для 70B модели в FP16 **[[Вики/Quantization\|FP16]]** ([[Вики/Quantization\|16-bit floating point]]) — каждый параметр занимает 2…

  • wikidynamic loss scaling

    …Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] ## Навигация…

  • wikiFP32

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16

  • wikiTensor Cores

    # Tensor Cores ## Определение Специализированные аппаратные блоки в GPU NVIDIA (H100/B200) для ускорения матричного умножения (GEMM) в форматах FP16/FP8…

  • wikiTPU

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…

  • answerКак работает quantization-aware scaling в AWQ для защиты важных весов?

    …Пропускаем калибровочные данные через модель в FP16. 2. Для каждого выходного канала собираем статистику активаций (например, среднее абсолютное значение). 3…

  • answerПочему 4-bit inference иногда медленнее 8-bit?

    …3. **Умножение [[Вики/FP16\|FP16]]*[[Вики/FP16\|FP16]]** с активацией в тензорном ядре. **Почему это дороже, чем [[Вики/8-bit…

  • answerКак работает QLoRA (Quantized LoRA) для training?

    …Добавление LoRA-адаптеров в [[Вики/FP16\|FP16]] (или [[Вики/BF16\|BF16]]) к выбранным слоям (обычно к [[Вики/Attention\|attention]] проекциям…

  • wikiQuantization-aware training

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiScale

    …Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[654…

  • wikiPost-training quantization

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?

    …Идея: ~1% весов, которые имеют наибольшее влияние на активации (по абсолютной величине), остаются в **[[Вики/FP16\|FP16]]**, а остальные квантизуются…

  • answerКак вы реализуете KV cache для 1M токенов на 8x H100?

    …Размер на [[Вики/GPU\|GPU]] для одного токена: `2 × 80 × 1 × 128 = 20480 чисел [[Вики/FP16\|FP16]] = 40960 байт = 0…

  • wikiSGD

    …Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[659…

  • wikiTransformer Engine

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiзащита важных весов

    # защита важных весов ## Определение Техника квантизации, при которой наиболее важные веса (1%) остаются в FP16 для сохранения качества. Используется в…

  • wikite.LayerNorm

    # te.LayerNorm ## Определение Реализация слоя нормализации из библиотеки Transformer Engine, оптимизированная для вычислений в FP16 и FP8 при инференсе. ## Где…

  • wikiGGUF

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikiInfinity

    # Infinity ## Определение Инструмент для развертывания сервиса генерации эмбеддингов, альтернатива TEI; также обозначение бесконечности при переполнении fp16. ## Где встречается - [[485. Как…

  • wikiLinear layers

    # Linear layers ## Определение Полносвязные слои, для которых в vLLM поддерживается FP8; остальные операции остаются в FP16/FP32. ## Где встречается - [[460…

  • wikiLLM.int8

    # LLM.int8 ## Определение Метод 8-битной квантизации, при котором аномальные значения (outliers) сохраняются в FP16 для минимизации потери точности. ## Где…

  • answerЧем AWQ отличается от GPTQ?

    …Пропускаем калибровочный датасет через исходную модель (FP16). 2. Для каждого слоя собираем статистику активаций (выходных значений после применения весов к…

  • wikiSalient weights

    # Salient weights ## Определение В контексте квантизации AWQ — около 1% весов с наибольшим влиянием на активации, которые сохраняются в FP16 для…

  • wikiWeight-only quantization

    # Weight-only quantization ## Определение Квантизация только весов модели с сохранением активаций в FP16. Позволяет ускорить инференс и уменьшить потребление памяти…

  • answerПочему KV cache растет линейно с длиной контекста и как это оптимизировать?

    …Экономия - [[Вики/FP16\|FP16]] → [[Вики/8-bit quantization\|INT8]]: уменьшение в 2 раза. - [[Вики/FP16\|FP16]] → [[Вики/4-bit quantization…

  • wikidequantization

    # dequantization ## Определение Операция преобразования низкоточных чисел (например, INT4) обратно в формат с плавающей точкой (FP16) перед выполнением матричных умножений, что…

  • wikiAWQ

    # AWQ ## Определение Метод квантизации, анализирующий важность весов по активациям и сохраняющий 1% критичных весов в FP16 для лучшего качества на…

  • answerКак работает FlashAttention-3 технически? Чем отличается от FA2?

    …памяти (128×128×2 байта на тензор при [[Вики/FP16\|FP16]] ≈ 32 КБ на один tile, а для Q,K…

  • wikiCUDA Execution Provider

    …Поддерживает FP16 и INT8, оптимизирован для инференса. ## Где встречается - [[320. Что такое ONNX Runtime и когда он выгоден для LLM…

  • answerКак вы оптимизируете embedding генерацию для большого количества документов?

    …2. **Использование [[Вики/mixed precision training\|mixed precision]] ([[Вики/FP16\|FP16]])**: уменьшает [[Вики/memory footprint\|использование памяти]] и ускоряет вычисления…