Поиск

answerПочему BF16 лучше FP16 для training?
…Почему BF16 лучше FP16 для training? ## Краткий тезис **BF16 (bfloat16)** превосходит **FP16 (float16)** для обучения нейросетей благодаря более широкому динамическому…
wikiunderflow
# underflow ## Определение Ситуация, когда числа становятся слишком малыми для представления в используемом формате (например, FP16) и округляются до нуля, теряя…
answerКак работает Mixed Precision Training (FP16 + FP32 master веса)?
…Скопировать master‑веса в [[Вики/FP16\|FP16]] (конвертация). 2. Выполнить forward/backward в [[Вики/FP16\|FP16]], получив градиенты в [[Вики…
wikigradient scaling
# gradient scaling ## Определение Техника масштабирования градиентов перед приведением к низкой точности (FP16/FP8) для предотвращения underflow; используется в mixed precision…
wikioverflow
# overflow ## Определение Числовое переполнение в вычислениях, когда значение градиента или активации превышает максимально представимое число формата (например, FP16), приводя к…
answerКак работает tensor parallelism с FP8 в vLLM?
…Перед [[Вики/AllReduce\|AllReduce]] [[Вики/logits\|логиты]] преобразуются в [[Вики/FP16\|FP16]]. 3. [[Вики/AllReduce\|AllReduce]] суммирует FP16-тензоры от…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…Ожидаемый результат этапа - Среднее [[Вики/Latency\|время инференса]] [[Вики/FP16\|FP16]] (`T_fp16`). - [[Вики/Perplexity\|Perplexity]] [[Вики/FP16\|FP16]] (`PPL…
wikiFP32 master weights
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…
answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…FP16 (Float16 / Half Precision) **[[Вики/FP16\|FP16]]** — 16-битный формат с плавающей точкой по стандарту IEEE 754. Структура: 1 бит…
wikiDynamic range
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiMachine epsilon
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikitorch.cuda.amp.autocast
# torch.cuda.amp.autocast ## Определение Контекстный менеджер PyTorch, автоматически выбирающий формат FP16/BF16 для выполнения операций forward в рамках mixed…
wikimixed precision training
# mixed precision training ## Определение Mixed precision training — техника использования разных форматов чисел (FP16, BF16, FP32) для ускорения обучения и инференса…
wikiFP16
# FP16 ## Определение Формат чисел с плавающей точкой половинной точности (16 бит), используемый для уменьшения памяти и ускорения вычислений, например, для…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настройка AWQ квантизации для LLM
…Ключевой результат Квантизированная [[Вики/model\|модель]] с качеством не ниже 99% от [[Вики/FP16\|FP16]] при снижении потребления [[Вики/GPU…
answerЧто такое FP8 инференс на H100 (Transformer Engine)?
…Пример псевдокода: ```python # Упрощённая логика Transformer Engine def fp8_gemm(A_fp16, B_fp16): scale_A = max(abs(A_fp16…
answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…входные матрицы могут быть в [[Вики/FP16\|FP16]] или [[Вики/BF16\|BF16]], а накопление ведётся в [[Вики/FP32\|FP32]]. Это…
answerКак сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?
…чуть ниже GPTQ/AWQ (97% от [[Вики/FP16\|FP16]] против 98-99%), но зато **работает на любом железе**. [[Вики/GGUF…
wikiTFLOPS
…Указывается для разных типов данных (FP16, FP8) и важна при выборе аппаратного обеспечения для инференса и обучения LLM. ## Где встречается…
answerКак работает FP8 quantization на H100 (Transformer Engine)?
…могут оставаться в [[Вики/FP8\|FP8]] или [[Вики/FP16\|FP16]] в зависимости от реализации; для точности часто градиенты хранят в…
answerПочему training 70B модели требует optimizer sharding (ZeRO-3)?
…Расчёт памяти для 70B модели в FP16 **[[Вики/Quantization\|FP16]]** ([[Вики/Quantization\|16-bit floating point]]) — каждый параметр занимает 2…
wikidynamic loss scaling
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] ## Навигация…
wikiFP32
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…
wikiTensor Cores
# Tensor Cores ## Определение Специализированные аппаратные блоки в GPU NVIDIA (H100/B200) для ускорения матричного умножения (GEMM) в форматах FP16/FP8…
wikiTPU
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
answerКак работает quantization-aware scaling в AWQ для защиты важных весов?
…Пропускаем калибровочные данные через модель в FP16. 2. Для каждого выходного канала собираем статистику активаций (например, среднее абсолютное значение). 3…
answerПочему 4-bit inference иногда медленнее 8-bit?
…3. **Умножение [[Вики/FP16\|FP16]]*[[Вики/FP16\|FP16]]** с активацией в тензорном ядре. **Почему это дороже, чем [[Вики/8-bit…
answerКак работает QLoRA (Quantized LoRA) для training?
…Добавление LoRA-адаптеров в [[Вики/FP16\|FP16]] (или [[Вики/BF16\|BF16]]) к выбранным слоям (обычно к [[Вики/Attention\|attention]] проекциям…
wikiQuantization-aware training
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiScale
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[654…
wikiPost-training quantization
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…Идея: ~1% весов, которые имеют наибольшее влияние на активации (по абсолютной величине), остаются в **[[Вики/FP16\|FP16]]**, а остальные квантизуются…
answerКак вы реализуете KV cache для 1M токенов на 8x H100?
…Размер на [[Вики/GPU\|GPU]] для одного токена: `2 × 80 × 1 × 128 = 20480 чисел [[Вики/FP16\|FP16]] = 40960 байт = 0…
wikiSGD
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] - [[659…
wikiTransformer Engine
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiзащита важных весов
# защита важных весов ## Определение Техника квантизации, при которой наиболее важные веса (1%) остаются в FP16 для сохранения качества. Используется в…
wikite.LayerNorm
# te.LayerNorm ## Определение Реализация слоя нормализации из библиотеки Transformer Engine, оптимизированная для вычислений в FP16 и FP8 при инференсе. ## Где…
wikiGGUF
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikiInfinity
# Infinity ## Определение Инструмент для развертывания сервиса генерации эмбеддингов, альтернатива TEI; также обозначение бесконечности при переполнении fp16. ## Где встречается - [[485. Как…
wikiLinear layers
# Linear layers ## Определение Полносвязные слои, для которых в vLLM поддерживается FP8; остальные операции остаются в FP16/FP32. ## Где встречается - [[460…
wikiLLM.int8
# LLM.int8 ## Определение Метод 8-битной квантизации, при котором аномальные значения (outliers) сохраняются в FP16 для минимизации потери точности. ## Где…
answerЧем AWQ отличается от GPTQ?
…Пропускаем калибровочный датасет через исходную модель (FP16). 2. Для каждого слоя собираем статистику активаций (выходных значений после применения весов к…
wikiSalient weights
# Salient weights ## Определение В контексте квантизации AWQ — около 1% весов с наибольшим влиянием на активации, которые сохраняются в FP16 для…
wikiWeight-only quantization
# Weight-only quantization ## Определение Квантизация только весов модели с сохранением активаций в FP16. Позволяет ускорить инференс и уменьшить потребление памяти…
answerПочему KV cache растет линейно с длиной контекста и как это оптимизировать?
…Экономия - [[Вики/FP16\|FP16]] → [[Вики/8-bit quantization\|INT8]]: уменьшение в 2 раза. - [[Вики/FP16\|FP16]] → [[Вики/4-bit quantization…
wikidequantization
# dequantization ## Определение Операция преобразования низкоточных чисел (например, INT4) обратно в формат с плавающей точкой (FP16) перед выполнением матричных умножений, что…
wikiAWQ
# AWQ ## Определение Метод квантизации, анализирующий важность весов по активациям и сохраняющий 1% критичных весов в FP16 для лучшего качества на…
answerКак работает FlashAttention-3 технически? Чем отличается от FA2?
…памяти (128×128×2 байта на тензор при [[Вики/FP16\|FP16]] ≈ 32 КБ на один tile, а для Q,K…
wikiCUDA Execution Provider
…Поддерживает FP16 и INT8, оптимизирован для инференса. ## Где встречается - [[320. Что такое ONNX Runtime и когда он выгоден для LLM…
answerКак вы оптимизируете embedding генерацию для большого количества документов?
…2. **Использование [[Вики/mixed precision training\|mixed precision]] ([[Вики/FP16\|FP16]])**: уменьшает [[Вики/memory footprint\|использование памяти]] и ускоряет вычисления…