Поиск

wikiFP8-aware training
# FP8-aware training ## Определение Метод обучения или дообучения модели с имитацией FP8 квантизации для минимизации потери точности при последующем FP8…
answerКак работает tensor parallelism с FP8 в vLLM?
…В контексте [[Вики/VLLM\|vLLM]] [[Вики/FP8\|FP8]] используется для хранения весов и активаций. Особенности [[Вики/FP8\|FP8]] - Меньшая [[Вики…
wikiFP8 quantization
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[642. Как вы…
answerЧто такое FP8 инференс на H100 (Transformer Engine)?
…Когда использовать FP8 инференс [[Вики/FP8\|FP8]] [[Вики/forward pass\|инференс]] оптимален в следующих сценариях: - Большие модели (70B+ параметров), где…
wikiFP8 Tensor Core
# FP8 Tensor Core ## Определение Специализированные вычислительные блоки на GPU H100, предназначенные для выполнения операций умножения матриц с FP8 точностью, что…
answerКак работает FP8 quantization на H100 (Transformer Engine)?
…Как работает FP8 quantization на H100 (Transformer Engine)? ## Краткий тезис [[Вики/FP8 quantization\|FP8 quantization]] на [[Вики/Hopper GPU\|H100…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…Ожидаемый результат этапа - Среднее [[Вики/Latency\|время инференса]] [[Вики/FP8\|FP8]] (`T_fp8`). - [[Вики/Perplexity\|Perplexity]] [[Вики/FP8\|FP8]] (`PPL…
wikiquantlib
# quantlib ## Определение Библиотека для эмуляции FP8-инференса на оборудовании, не поддерживающем аппаратный FP8 (например, на GPU без H100). Позволяет тестировать…
wikiTransformer Engine
# Transformer Engine ## Определение Аппаратный модуль и программная библиотека NVIDIA для автоматического управления FP8 quantization и масштабированием на H100/B200. ## Где…
wikiFP8
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[460. Как работает…
wikidelayed scaling
# delayed scaling ## Определение Метод калибровки масштабов в Transformer Engine для FP8 quantization на H100, при котором scaling factor применяется с…
wikiscaling factors
# scaling factors ## Определение Параметры, используемые Transformer Engine для масштабирования тензоров при конвертации FP16 в FP8, чтобы избежать переполнения. ## Где встречается…
wikioutliers
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[458. Что такое…
wikiQuantization-aware training
# Quantization-aware training ## Определение Метод обучения модели с имитацией эффектов квантизации (например, FP8 или INT4) на этапе прямого прохода. Позволяет…
wikiH100
# H100 ## Определение Графический процессор NVIDIA архитектуры Hopper с поддержкой FP8 через Transformer Engine и MIG, ключевой для инференса LLM. ## Где…
wikite.Linear
# te.Linear ## Определение Линейный слой из Transformer Engine, поддерживающий FP8 вычисления для ускоренного инференса. ## Где встречается - [[214. Реализовать FP8 инференс…
wikiMARGIN-режим
# MARGIN-режим ## Определение Режим калибровки FP8 инференса, который контролирует запас точности при квантизации. ## Где встречается - [[214. Реализовать FP8 инференс на…
wikigradient scaling
# gradient scaling ## Определение Техника масштабирования градиентов перед приведением к низкой точности (FP16/FP8) для предотвращения underflow; используется в mixed precision…
wikite.LayerNorm
# te.LayerNorm ## Определение Реализация слоя нормализации из библиотеки Transformer Engine, оптимизированная для вычислений в FP16 и FP8 при инференсе. ## Где…
wikiE5M2
# E5M2 ## Определение Формат FP8 с 5 битами экспоненты и 2 битами мантиссы, применяемый для квантования градиентов. ## Где встречается - [[312. Как…
wikiE4M3
# E4M3 ## Определение Формат FP8 с 4 битами экспоненты и 3 битами мантиссы, применяемый для квантования весов и активаций. ## Где встречается…
wikiLinear layers
# Linear layers ## Определение Полносвязные слои, для которых в vLLM поддерживается FP8; остальные операции остаются в FP16/FP32. ## Где встречается - [[460…
wikidynamic scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikismooth quantization
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikioutlier-aware scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikiTensor Cores
# Tensor Cores ## Определение Специализированные аппаратные блоки в GPU NVIDIA (H100/B200) для ускорения матричного умножения (GEMM) в форматах FP16/FP8…
wikiNeMo
# NeMo ## Определение Библиотека NVIDIA для обучения и fine-tuning LLM, поддерживающая FP8 через Transformer Engine, а также построение диалоговых AI…
wikihidden_size
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiHugging Face Evaluate
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…1979 [[Вики/TFLOPS\|TFLOPS]] для [[Вики/FP8\|FP8]] ([[Вики/Sparse computation\|sparse]]) и 989 [[Вики/TFLOPS\|TFLOPS]] для [[Вики/FP16…
wikiper-tensor scaling
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikiBF16
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[461. Почему training…
answerКак работает FlashAttention-3 технически? Чем отличается от FA2?
…Использует новые аппаратные [[Вики/Capability\|возможности]], [[Вики/asyncio\|асинхронность]] и [[Вики/FP8\|FP8]]. --- ## 2. Аппаратная база: архитектура Hopper (H100) Architecture…
wikiper-channel scaling
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[642. Как вы…
wikiunderflow
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…FP8 (Float8) [[Вики/Quantization\|FP8]] — 8-битный формат с плавающей точкой, впервые появившийся на [[Вики/H100\|NVIDIA H100]] (Hopper) и…
wikiprofiler
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiGEMM
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[703. Как работает…
wikiFP32 master weights
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[464. Почему BF16…
wikispeedup
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] - [[220. Настроить wave decoding для коротких ответов|220. Настроить…
wikicalibration dataset
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
wikiScale
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[444. Почему 4…
answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Поддержка FP8 [[Вики/FP8 quantization\|FP8]] (8-bit floating point) — формат чисел с плавающей точкой, поддерживаемый тензорными ядрами Hopper (H100…
wikiPost-training quantization
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
wikimixed precision training
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[426. Что такое…
wikiMegatron-LM
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[423. Как работает…
wikitorch.compile
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] - [[220. Настроить wave decoding для коротких ответов|220. Настроить…
wiki4th gen
# 4th gen ## Определение Четвёртое поколение Tensor Cores в GPU H100, поддерживающее форматы FP8 и обеспечивающее повышенную производительность для обучения и…
wikiFlashAttention-3
# FlashAttention-3 ## Определение Версия FlashAttention для GPU Hopper, использующая WGMMA, TMA, FP8 и partitioning 128×128 для ускорения в 2…
wikiGGUF
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…