Поиск

  • wikiFP8-aware training

    # FP8-aware training ## Определение Метод обучения или дообучения модели с имитацией FP8 квантизации для минимизации потери точности при последующем FP8

  • answerКак работает tensor parallelism с FP8 в vLLM?

    …В контексте [[Вики/VLLM\|vLLM]] [[Вики/FP8\|FP8]] используется для хранения весов и активаций. Особенности [[Вики/FP8\|FP8]] - Меньшая [[Вики…

  • wikiFP8 quantization

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[642. Как вы…

  • answerЧто такое FP8 инференс на H100 (Transformer Engine)?

    …Когда использовать FP8 инференс [[Вики/FP8\|FP8]] [[Вики/forward pass\|инференс]] оптимален в следующих сценариях: - Большие модели (70B+ параметров), где…

  • wikiFP8 Tensor Core

    # FP8 Tensor Core ## Определение Специализированные вычислительные блоки на GPU H100, предназначенные для выполнения операций умножения матриц с FP8 точностью, что…

  • answerКак работает FP8 quantization на H100 (Transformer Engine)?

    …Как работает FP8 quantization на H100 (Transformer Engine)? ## Краткий тезис [[Вики/FP8 quantization\|FP8 quantization]] на [[Вики/Hopper GPU\|H100…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100

    …Ожидаемый результат этапа - Среднее [[Вики/Latency\|время инференса]] [[Вики/FP8\|FP8]] (`T_fp8`). - [[Вики/Perplexity\|Perplexity]] [[Вики/FP8\|FP8]] (`PPL…

  • wikiquantlib

    # quantlib ## Определение Библиотека для эмуляции FP8-инференса на оборудовании, не поддерживающем аппаратный FP8 (например, на GPU без H100). Позволяет тестировать…

  • wikiTransformer Engine

    # Transformer Engine ## Определение Аппаратный модуль и программная библиотека NVIDIA для автоматического управления FP8 quantization и масштабированием на H100/B200. ## Где…

  • wikiFP8

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[460. Как работает…

  • wikidelayed scaling

    # delayed scaling ## Определение Метод калибровки масштабов в Transformer Engine для FP8 quantization на H100, при котором scaling factor применяется с…

  • wikiscaling factors

    # scaling factors ## Определение Параметры, используемые Transformer Engine для масштабирования тензоров при конвертации FP16 в FP8, чтобы избежать переполнения. ## Где встречается…

  • wikioutliers

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[458. Что такое…

  • wikiQuantization-aware training

    # Quantization-aware training ## Определение Метод обучения модели с имитацией эффектов квантизации (например, FP8 или INT4) на этапе прямого прохода. Позволяет…

  • wikiH100

    # H100 ## Определение Графический процессор NVIDIA архитектуры Hopper с поддержкой FP8 через Transformer Engine и MIG, ключевой для инференса LLM. ## Где…

  • wikite.Linear

    # te.Linear ## Определение Линейный слой из Transformer Engine, поддерживающий FP8 вычисления для ускоренного инференса. ## Где встречается - [[214. Реализовать FP8 инференс…

  • wikiMARGIN-режим

    # MARGIN-режим ## Определение Режим калибровки FP8 инференса, который контролирует запас точности при квантизации. ## Где встречается - [[214. Реализовать FP8 инференс на…

  • wikigradient scaling

    # gradient scaling ## Определение Техника масштабирования градиентов перед приведением к низкой точности (FP16/FP8) для предотвращения underflow; используется в mixed precision…

  • wikite.LayerNorm

    # te.LayerNorm ## Определение Реализация слоя нормализации из библиотеки Transformer Engine, оптимизированная для вычислений в FP16 и FP8 при инференсе. ## Где…

  • wikiE5M2

    # E5M2 ## Определение Формат FP8 с 5 битами экспоненты и 2 битами мантиссы, применяемый для квантования градиентов. ## Где встречается - [[312. Как…

  • wikiE4M3

    # E4M3 ## Определение Формат FP8 с 4 битами экспоненты и 3 битами мантиссы, применяемый для квантования весов и активаций. ## Где встречается…

  • wikiLinear layers

    # Linear layers ## Определение Полносвязные слои, для которых в vLLM поддерживается FP8; остальные операции остаются в FP16/FP32. ## Где встречается - [[460…

  • wikidynamic scaling

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…

  • wikismooth quantization

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…

  • wikioutlier-aware scaling

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…

  • wikiTensor Cores

    # Tensor Cores ## Определение Специализированные аппаратные блоки в GPU NVIDIA (H100/B200) для ускорения матричного умножения (GEMM) в форматах FP16/FP8

  • wikiNeMo

    # NeMo ## Определение Библиотека NVIDIA для обучения и fine-tuning LLM, поддерживающая FP8 через Transformer Engine, а также построение диалоговых AI…

  • wikihidden_size

    …Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiHugging Face Evaluate

    …Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • answerКак работают Tensor Cores в H100/B200 и для чего они нужны?

    …1979 [[Вики/TFLOPS\|TFLOPS]] для [[Вики/FP8\|FP8]] ([[Вики/Sparse computation\|sparse]]) и 989 [[Вики/TFLOPS\|TFLOPS]] для [[Вики/FP16…

  • wikiper-tensor scaling

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…

  • wikiBF16

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[461. Почему training…

  • answerКак работает FlashAttention-3 технически? Чем отличается от FA2?

    …Использует новые аппаратные [[Вики/Capability\|возможности]], [[Вики/asyncio\|асинхронность]] и [[Вики/FP8\|FP8]]. --- ## 2. Аппаратная база: архитектура Hopper (H100) Architecture…

  • wikiper-channel scaling

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[642. Как вы…

  • wikiunderflow

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?

    FP8 (Float8) [[Вики/Quantization\|FP8]] — 8-битный формат с плавающей точкой, впервые появившийся на [[Вики/H100\|NVIDIA H100]] (Hopper) и…

  • wikiprofiler

    …Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiGEMM

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[703. Как работает…

  • wikiFP32 master weights

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[464. Почему BF16…

  • wikispeedup

    …Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] - [[220. Настроить wave decoding для коротких ответов|220. Настроить…

  • wikicalibration dataset

    …Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiScale

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[444. Почему 4…

  • answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?

    …Поддержка FP8 [[Вики/FP8 quantization\|FP8]] (8-bit floating point) — формат чисел с плавающей точкой, поддерживаемый тензорными ядрами Hopper (H100…

  • wikiPost-training quantization

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…

  • wikimixed precision training

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[426. Что такое…

  • wikiMegatron-LM

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[423. Как работает…

  • wikitorch.compile

    …Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] - [[220. Настроить wave decoding для коротких ответов|220. Настроить…

  • wiki4th gen

    # 4th gen ## Определение Четвёртое поколение Tensor Cores в GPU H100, поддерживающее форматы FP8 и обеспечивающее повышенную производительность для обучения и…

  • wikiFlashAttention-3

    # FlashAttention-3 ## Определение Версия FlashAttention для GPU Hopper, использующая WGMMA, TMA, FP8 и partitioning 128×128 для ускорения в 2…

  • wikiGGUF

    …Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…