Поиск
- wikiFP8-aware training
# FP8-aware training ## Определение Метод обучения или дообучения модели с имитацией FP8 квантизации для минимизации потери точности при последующем FP8…
- answerКак работает tensor parallelism с FP8 в vLLM?
…В контексте [[Вики/VLLM\|vLLM]] [[Вики/FP8\|FP8]] используется для хранения весов и активаций. Особенности [[Вики/FP8\|FP8]] - Меньшая [[Вики…
- wikiFP8 quantization
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[642. Как вы…
- answerЧто такое FP8 инференс на H100 (Transformer Engine)?
…Когда использовать FP8 инференс [[Вики/FP8\|FP8]] [[Вики/forward pass\|инференс]] оптимален в следующих сценариях: - Большие модели (70B+ параметров), где…
- wikiFP8 Tensor Core
# FP8 Tensor Core ## Определение Специализированные вычислительные блоки на GPU H100, предназначенные для выполнения операций умножения матриц с FP8 точностью, что…
- answerКак работает FP8 quantization на H100 (Transformer Engine)?
…Как работает FP8 quantization на H100 (Transformer Engine)? ## Краткий тезис [[Вики/FP8 quantization\|FP8 quantization]] на [[Вики/Hopper GPU\|H100…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…Ожидаемый результат этапа - Среднее [[Вики/Latency\|время инференса]] [[Вики/FP8\|FP8]] (`T_fp8`). - [[Вики/Perplexity\|Perplexity]] [[Вики/FP8\|FP8]] (`PPL…
- wikiquantlib
# quantlib ## Определение Библиотека для эмуляции FP8-инференса на оборудовании, не поддерживающем аппаратный FP8 (например, на GPU без H100). Позволяет тестировать…
- wikiTransformer Engine
# Transformer Engine ## Определение Аппаратный модуль и программная библиотека NVIDIA для автоматического управления FP8 quantization и масштабированием на H100/B200. ## Где…
- wikiFP8
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[460. Как работает…
- wikidelayed scaling
# delayed scaling ## Определение Метод калибровки масштабов в Transformer Engine для FP8 quantization на H100, при котором scaling factor применяется с…
- wikiscaling factors
# scaling factors ## Определение Параметры, используемые Transformer Engine для масштабирования тензоров при конвертации FP16 в FP8, чтобы избежать переполнения. ## Где встречается…
- wikioutliers
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[458. Что такое…
- wikiQuantization-aware training
# Quantization-aware training ## Определение Метод обучения модели с имитацией эффектов квантизации (например, FP8 или INT4) на этапе прямого прохода. Позволяет…
- wikiH100
# H100 ## Определение Графический процессор NVIDIA архитектуры Hopper с поддержкой FP8 через Transformer Engine и MIG, ключевой для инференса LLM. ## Где…
- wikite.Linear
# te.Linear ## Определение Линейный слой из Transformer Engine, поддерживающий FP8 вычисления для ускоренного инференса. ## Где встречается - [[214. Реализовать FP8 инференс…
- wikiMARGIN-режим
# MARGIN-режим ## Определение Режим калибровки FP8 инференса, который контролирует запас точности при квантизации. ## Где встречается - [[214. Реализовать FP8 инференс на…
- wikigradient scaling
# gradient scaling ## Определение Техника масштабирования градиентов перед приведением к низкой точности (FP16/FP8) для предотвращения underflow; используется в mixed precision…
- wikite.LayerNorm
# te.LayerNorm ## Определение Реализация слоя нормализации из библиотеки Transformer Engine, оптимизированная для вычислений в FP16 и FP8 при инференсе. ## Где…
- wikiE5M2
# E5M2 ## Определение Формат FP8 с 5 битами экспоненты и 2 битами мантиссы, применяемый для квантования градиентов. ## Где встречается - [[312. Как…
- wikiE4M3
# E4M3 ## Определение Формат FP8 с 4 битами экспоненты и 3 битами мантиссы, применяемый для квантования весов и активаций. ## Где встречается…
- wikiLinear layers
# Linear layers ## Определение Полносвязные слои, для которых в vLLM поддерживается FP8; остальные операции остаются в FP16/FP32. ## Где встречается - [[460…
- wikidynamic scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikismooth quantization
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikioutlier-aware scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikiTensor Cores
# Tensor Cores ## Определение Специализированные аппаратные блоки в GPU NVIDIA (H100/B200) для ускорения матричного умножения (GEMM) в форматах FP16/FP8…
- wikiNeMo
# NeMo ## Определение Библиотека NVIDIA для обучения и fine-tuning LLM, поддерживающая FP8 через Transformer Engine, а также построение диалоговых AI…
- wikihidden_size
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiHugging Face Evaluate
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…1979 [[Вики/TFLOPS\|TFLOPS]] для [[Вики/FP8\|FP8]] ([[Вики/Sparse computation\|sparse]]) и 989 [[Вики/TFLOPS\|TFLOPS]] для [[Вики/FP16…
- wikiper-tensor scaling
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikiBF16
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[461. Почему training…
- answerКак работает FlashAttention-3 технически? Чем отличается от FA2?
…Использует новые аппаратные [[Вики/Capability\|возможности]], [[Вики/asyncio\|асинхронность]] и [[Вики/FP8\|FP8]]. --- ## 2. Аппаратная база: архитектура Hopper (H100) Architecture…
- wikiper-channel scaling
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[642. Как вы…
- wikiunderflow
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
- answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…FP8 (Float8) [[Вики/Quantization\|FP8]] — 8-битный формат с плавающей точкой, впервые появившийся на [[Вики/H100\|NVIDIA H100]] (Hopper) и…
- wikiprofiler
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiGEMM
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[703. Как работает…
- wikiFP32 master weights
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[464. Почему BF16…
- wikispeedup
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] - [[220. Настроить wave decoding для коротких ответов|220. Настроить…
- wikicalibration dataset
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiScale
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[444. Почему 4…
- answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Поддержка FP8 [[Вики/FP8 quantization\|FP8]] (8-bit floating point) — формат чисел с плавающей точкой, поддерживаемый тензорными ядрами Hopper (H100…
- wikiPost-training quantization
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…
- wikimixed precision training
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[426. Что такое…
- wikiMegatron-LM
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[423. Как работает…
- wikitorch.compile
…Реализовать FP8 инференс на H100|214. Реализовать FP8 инференс на H100]] - [[220. Настроить wave decoding для коротких ответов|220. Настроить…
- wiki4th gen
# 4th gen ## Определение Четвёртое поколение Tensor Cores в GPU H100, поддерживающее форматы FP8 и обеспечивающее повышенную производительность для обучения и…
- wikiFlashAttention-3
# FlashAttention-3 ## Определение Версия FlashAttention для GPU Hopper, использующая WGMMA, TMA, FP8 и partitioning 128×128 для ускорения в 2…
- wikiGGUF
…Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать|666. Что такое FP16, BF16, FP8, INT8 quantization Когда что…