Что такое FP8 инференс на H100 (Transformer Engine)?

Q: 1. Введение: зачем нужен FP8 инференс

Современные [[Вики/LLM\|LLM]] требуют огромных вычислительных ресурсов. Традиционный [[Вики/inference\|инференс]] в [[Вики/Quantization\|FP16]] (16-битная плавающая точка) даёт хорошую [[Вики/accuracy\|точность]], но ограничивает пропускную способность и [[Вики/memory footprint\|объём памяти]]. [[Вики/Quantization\|FP8]] (8-битная плавающая точка) — это [[Вики/trade-off\|компромисс]]: он позволяет выполнять больше операций в секунду и загружать больше параметров в [[Вики/Memory\|память]] [[Вики/

Q: 2. Архитектура H100 и Transformer Engine

- Автоматически выбирает формат ([[Вики/Quantization\|FP8]] или [[Вики/Quantization\|FP16]]) для каждой матричной операции ([[Вики/GEMM\|GEMM]]) на основе статистик тензоров. - Вычисляет [[Вики/scaling factors\|scaling factors]] (коэффициенты масштабирования) в реальном времени, чтобы избежать переполнения или [[Вики/Loss\|потери]] значимости.

Q: 3. Механизм работы FP8 инференса

Процесс инференса с [[Вики/Transformer Engine\|Transformer Engine]] включает следующие шаги: 1. Входные данные (активации и веса) хранятся в [[Вики/FP16\|FP16]]. 2. Перед каждой GEMM-операцией [[Вики/Transformer Engine\|Transformer Engine]] анализирует максимальные [[Вики/Value\|значения]] тензора.

Q: 4. Преимущества FP8 инференса

| Параметр | FP16 | FP8 | Улучшение | |----------|------|-----|-----------| | Размер данных | 2 байта | 1 байт | 2x меньше памяти | | Пропускная способность памяти | 1x | 2x (теоретически) | 2x больше данных за такт | | Вычислительная производительность (TFLOPS) | ~1000 (H100) | ~2000 (H100) | 2x больше операций |

Q: 5. Влияние на точность

Потеря точности при [[Вики/FP8\|FP8]] инференсе минимальна, но не нулевая. Эксперименты на бенчмарке [[Вики/MMLU\|MMLU]] ([[Вики/MMLU\|Massive Multitask Language Understanding]]) показывают: - Без [[Вики/fine-tuning\|fine-tuning]]: [[Вики/accuracy drop\|падение точности]] 1–2% (из-за неоптимальных [[Вики/scaling factors\|scaling factors]]).

Q: 6. Сравнение с другими форматами

| Формат | Битность | Динамический диапазон | Точность | Скорость (GEMM) | Применение | |--------|----------|----------------------|----------|-----------------|------------| | FP32 | 32 | ~1e-38 .. 3e38 | высокая | 1x | обучение, baseline | | FP16 | 16 | ~6e-8 .. 6e4 | средняя | 2x (vs FP32) | стандартный инференс |

Q: 7. Когда использовать FP8 инференс

- Большие модели (70B+ параметров), где [[Вики/Memory\|память]] является узким местом. - Latency-critical приложения (чат-боты, голосовые ассистенты), где важна скорость одного запроса. - [[Вики/batch size\|Batch inference]] (обработка множества запросов одновременно) — [[Вики/FP8\|FP8]] позволяет увеличить [[Вики/batch size\|batch size]] без выхода за лимит [[Вики/GPU memory\|VRAM]].

Краткий тезис

FP8 инференс на H100 — это метод выполнения матричных операций (GEMM) в 8-битной точности с плавающей точкой, реализованный через аппаратный Transformer Engine. Он автоматически преобразует входные тензоры из FP16 в FP8, вычисляя scaling factors онлайн, что даёт ускорение до 2x и снижение потребления памяти в 2 раза по сравнению с FP16. При использовании training|FP8-aware fine-tuning потеря точности составляет всего 0.5–1% на бенчмарке MMLU, что делает этот подход эффективным для развёртывания больших языковых моделей (LLM) в продакшене.

1. Введение: зачем нужен FP8 инференс

Современные LLM требуют огромных вычислительных ресурсов. Традиционный инференс в FP16 (16-битная плавающая точка) даёт хорошую точность, но ограничивает пропускную способность и объём памяти. FP8 (8-битная плавающая точка) — это компромисс: он позволяет выполнять больше операций в секунду и загружать больше параметров в память GPU за счёт меньшего размера данных. H100 (Hopper) — первый GPU, который аппаратно поддерживает FP8 вычисления через Transformer Engine, специальный блок для автоматического управления точностью.

2. Архитектура H100 и Transformer Engine

Transformer Engine — это программно-аппаратный модуль на H100, который:

Автоматически выбирает формат (FP8 или FP16) для каждой матричной операции (GEMM) на основе статистик тензоров.
Вычисляет scaling factors (коэффициенты масштабирования) в реальном времени, чтобы избежать переполнения или потери значимости.
Работает с тензорными ядрами (Tensor Cores) четвёртого поколения, которые поддерживают FP8 умножение с накоплением в FP16 или FP32.

Ключевые особенности:

Поддержка двух вариантов FP8: E4M3 (4 бита экспонента, 3 бита мантисса) для прямого распространения и E5M2 (5 бит экспонента, 2 бита мантисса) для обратного (градиенты). Для инференса обычно используется E4M3.
Online scaling: коэффициенты масштабирования вычисляются на лету для каждого тензора, что позволяет адаптироваться к распределению данных.

3. Механизм работы FP8 инференса

Процесс инференса с Transformer Engine включает следующие шаги:

Входные данные (активации и веса) хранятся в FP16.
Перед каждой GEMM-операцией Transformer Engine анализирует максимальные значения тензора.
Вычисляется scaling factor: scale = max_value / max_fp8, где max_fp8 — максимальное представимое число в FP8 (для E4M3 это 448).
Тензор делится на scale (масштабируется) и округляется до FP8.
Выполняется матричное умножение в FP8 с накоплением в FP32 (или FP16) на тензорных ядрах.
Результат умножается на обратный scale (или комбинируется с другими scaling factors) для восстановления динамического диапазона.

Пример псевдокода:

# Упрощённая логика Transformer Engine
def fp8_gemm(A_fp16, B_fp16):
    scale_A = max(abs(A_fp16)) / 448.0
    scale_B = max(abs(B_fp16)) / 448.0
    A_fp8 = (A_fp16 / scale_A).to(torch.float8_e4m3fn)
    B_fp8 = (B_fp16 / scale_B).to(torch.float8_e4m3fn)
    C_fp32 = torch.mm(A_fp8.float(), B_fp8.float())  # накопление в FP32
    C_fp16 = (C_fp32 * scale_A * scale_B).to(torch.float16)
    return C_fp16

На практике Transformer Engine делает это автоматически, скрывая детали от разработчика.

4. Преимущества FP8 инференса

Параметр	FP16	FP8	Улучшение
Размер данных	2 байта	1 байт	2x меньше памяти
Пропускная способность памяти	1x	2x (теоретически)	2x больше данных за такт
Вычислительная производительность (TFLOPS)	~1000 (H100)	~2000 (H100)	2x больше операций
Энергопотребление на операцию	выше	ниже	экономия энергии

Ключевые выгоды

Ускорение инференса до 2x для матричных операций (доминирующих в LLM).
Снижение VRAM в 2 раза, что позволяет запускать модели большего размера на том же GPU.
Увеличение batch size или уменьшение latency для сервисов реального времени.

5. Влияние на точность

Потеря точности при FP8 инференсе минимальна, но не нулевая. Эксперименты на бенчмарке MMLU (Massive Multitask Language Understanding) показывают:

Без fine-tuning: падение точности 1–2% (из-за неоптимальных scaling factors).
С FP8-aware fine-tuning (обучение с имитацией FP8 квантования): падение всего 0.5–1%.

Почему точность страдает

Ограниченный динамический диапазон FP8 (особенно E4M3: от -448 до 448).
Outliers (выбросы) в активациях могут приводить к переполнению, если scaling factor выбран неверно.
Накопление ошибок округления через слои.

Как минимизировать потери

Использовать per-tensor scaling (один scale на весь тензор) или per-channel scaling (для весов).
Применять smooth quantization (сглаживание выбросов) перед инференсом.
Проводить calibration на небольшом датасете для подбора оптимальных scaling factors.

6. Сравнение с другими форматами

Формат	Битность	Динамический диапазон	Точность	Скорость (GEMM)	Применение
FP32	32	~1e-38 .. 3e38	высокая	1x	обучение, baseline
FP16	16	~6e-8 .. 6e4	средняя	2x (vs FP32)	стандартный инференс
FP8 (E4M3)	8	-448 .. 448	низкая, но достаточная	4x (vs FP32)	инференс с Transformer Engine
INT8	8	-128 .. 127	низкая, чувствителен к выбросам	4x (vs FP32)	квантование весов

FP8 выигрывает у INT8 за счёт плавающей точки: он лучше сохраняет точность для распределений с большим разбросом значений (характерно для активаций LLM).

7. Когда использовать FP8 инференс

FP8 инференс оптимален в следующих сценариях:

Большие модели (70B+ параметров), где память является узким местом.
Latency-critical приложения (чат-боты, голосовые ассистенты), где важна скорость одного запроса.
Batch inference (обработка множества запросов одновременно) — FP8 позволяет увеличить batch size без выхода за лимит VRAM.
Agentic RAG — когда агент делает множество последовательных вызовов LLM (например, для планирования, извлечения, генерации), FP8 снижает общее время ответа.

Когда лучше остаться на FP16

Модели малого размера (1B–7B), где память не критична.
Задачи, требующие максимальной точности (например, медицинская диагностика).
Если нет доступа к H100 (FP8 работает только на Hopper и новее).

8. Ограничения и подводные камни

Не все операции поддерживают FP8: только GEMM (матричное умножение). Остальные операции (softmax, layer norm, attention) выполняются в FP16/FP32, поэтому общее ускорение меньше 2x (обычно 1.5–1.8x).
Требуется H100 или новее: FP8 нет на A100, V100.
Чувствительность к распределению данных: если в модели есть слои с большими выбросами, точность может упасть сильнее.
Необходимость FP8-aware fine-tuning: для достижения минимальной потери точности нужно дообучать модель с имитацией FP8 (quantization-aware training, QAT). Это требует дополнительных вычислительных ресурсов.
Scaling factors занимают место: для каждого тензора нужно хранить scale (обычно float32), что немного снижает выигрыш по памяти.

9. Практические рекомендации и пример кода

Для включения FP8 инференса на H100 можно использовать:

TensorRT-LLM — оптимизированный движок для LLM с поддержкой FP8.
PyTorch + Transformer Engine (библиотека transformer_engine от NVIDIA).
NeMo (NVIDIA NeMo Framework) — высокоуровневый инструмент для fine-tuning и инференса.

Пример запуска инференса с Transformer Engine в PyTorch:

import torch
import transformer_engine.pytorch as te

# Загрузка модели (например, LLaMA-2 7B)
model = load_model("llama-2-7b", dtype=torch.float16).cuda()

# Включение FP8 для всех линейных слоёв
te.fp8_autocast(enabled=True):
    with torch.no_grad():
        for batch in dataloader:
            output = model(batch)
            # output будет в FP16, но внутренние GEMM выполнены в FP8

Для TensorRT-LLM:

# Сборка движка с FP8
trtllm-build --model_dir ./llama-7b \
             --dtype float16 \
             --use_fp8 \
             --output_dir ./engine_fp8

# Запуск инференса
python run.py --engine_dir ./engine_fp8 --max_output_len 256

Важно перед использованием FP8 рекомендуется провести калибровку (calibration) на репрезентативном датасете, чтобы подобрать оптимальные scaling factors. Это можно сделать через transformer_engine или TensorRT-LLM.

10. Связь с agentic RAG

В контексте Agentic RAG (вопросы 450–460) FP8 инференс играет ключевую роль:

Агенты часто делают множественные вызовы LLM (планирование, извлечение, генерация ответа). FP8 снижает latency каждого вызова, что критично для пользовательского опыта.
В многопользовательских системах FP8 позволяет обслуживать больше агентов одновременно на одном GPU.
Для длинных контекстов (retrieval + генерация) FP8 уменьшает потребление памяти, позволяя удерживать больше документов в контексте.

Таким образом, FP8 — это не просто оптимизация, а необходимый инструмент для масштабирования agentic RAG в продакшене.

Пет-проект для закрепления

Задача Сравнить производительность и точность инференса модели LLaMA-2 7B в FP16 и FP8 на H100.

Инструменты

GPU: NVIDIA H100 (80GB)
Библиотеки: PyTorch, Transformer Engine, TensorRT-LLM, Hugging Face Transformers
Датасет: MMLU (5-shot) для оценки точности

Шаги:

Загрузить модель LLaMA-2 7B в FP16.
Измерить latency (среднее время на один токен), throughput (токенов/сек), пиковое потребление VRAM.
Оценить accuracy на MMLU (5-shot) в FP16.
Включить FP8 через Transformer Engine (или TensorRT-LLM).
Повторить измерения latency, throughput, VRAM.
Оценить accuracy на MMLU в FP8.
Сравнить результаты: построить таблицу и графики.

Ожидаемый результат

Ускорение в 1.5–2x по latency и throughput.
Снижение VRAM на ~40–50% (с учётом overhead scaling factors).
Падение accuracy на MMLU не более 1% (если используется FP8-aware fine-tuning или калибровка).

Расширение Попробовать FP8-aware fine-tuning (QAT) с помощью NeMo и повторить замеры — точность должна восстановиться до уровня FP16.

Связь с другими вопросами

Вопрос	Тема
457	Что такое vLLM и PagedAttention?
459	Что такое TensorRT и TensorRT-LLM?
460	Какие методы квантования LLM вы знаете?
461	Что такое PagedAttention и как она работает?
462	Что такое continuous batching?
463	Как работает speculative decoding?

Краткий тезис

1. Введение: зачем нужен FP8 инференс

2. Архитектура H100 и Transformer Engine

Transformer Engine — это программно-аппаратный модуль на H100, который:

Автоматически выбирает формат (FP8 или FP16) для каждой матричной операции (GEMM) на основе статистик тензоров.
Вычисляет scaling factors (коэффициенты масштабирования) в реальном времени, чтобы избежать переполнения или потери значимости.
Работает с тензорными ядрами (Tensor Cores) четвёртого поколения, которые поддерживают FP8 умножение с накоплением в FP16 или FP32.

Ключевые особенности:

Поддержка двух вариантов FP8: E4M3 (4 бита экспонента, 3 бита мантисса) для прямого распространения и E5M2 (5 бит экспонента, 2 бита мантисса) для обратного (градиенты). Для инференса обычно используется E4M3.
Online scaling: коэффициенты масштабирования вычисляются на лету для каждого тензора, что позволяет адаптироваться к распределению данных.

3. Механизм работы FP8 инференса

Процесс инференса с Transformer Engine включает следующие шаги:

Входные данные (активации и веса) хранятся в FP16.
Перед каждой GEMM-операцией Transformer Engine анализирует максимальные значения тензора.
Вычисляется scaling factor: scale = max_value / max_fp8, где max_fp8 — максимальное представимое число в FP8 (для E4M3 это 448).
Тензор делится на scale (масштабируется) и округляется до FP8.
Выполняется матричное умножение в FP8 с накоплением в FP32 (или FP16) на тензорных ядрах.
Результат умножается на обратный scale (или комбинируется с другими scaling factors) для восстановления динамического диапазона.

Пример псевдокода:

# Упрощённая логика Transformer Engine
def fp8_gemm(A_fp16, B_fp16):
    scale_A = max(abs(A_fp16)) / 448.0
    scale_B = max(abs(B_fp16)) / 448.0
    A_fp8 = (A_fp16 / scale_A).to(torch.float8_e4m3fn)
    B_fp8 = (B_fp16 / scale_B).to(torch.float8_e4m3fn)
    C_fp32 = torch.mm(A_fp8.float(), B_fp8.float())  # накопление в FP32
    C_fp16 = (C_fp32 * scale_A * scale_B).to(torch.float16)
    return C_fp16

На практике Transformer Engine делает это автоматически, скрывая детали от разработчика.

4. Преимущества FP8 инференса

Параметр	FP16	FP8	Улучшение
Размер данных	2 байта	1 байт	2x меньше памяти
Пропускная способность памяти	1x	2x (теоретически)	2x больше данных за такт
Вычислительная производительность (TFLOPS)	~1000 (H100)	~2000 (H100)	2x больше операций
Энергопотребление на операцию	выше	ниже	экономия энергии

Ключевые выгоды

Ускорение инференса до 2x для матричных операций (доминирующих в LLM).
Снижение VRAM в 2 раза, что позволяет запускать модели большего размера на том же GPU.
Увеличение batch size или уменьшение latency для сервисов реального времени.

5. Влияние на точность

Без fine-tuning: падение точности 1–2% (из-за неоптимальных scaling factors).
С FP8-aware fine-tuning (обучение с имитацией FP8 квантования): падение всего 0.5–1%.

Почему точность страдает

Ограниченный динамический диапазон FP8 (особенно E4M3: от -448 до 448).
Outliers (выбросы) в активациях могут приводить к переполнению, если scaling factor выбран неверно.
Накопление ошибок округления через слои.

Как минимизировать потери

Использовать per-tensor scaling (один scale на весь тензор) или per-channel scaling (для весов).
Применять smooth quantization (сглаживание выбросов) перед инференсом.
Проводить calibration на небольшом датасете для подбора оптимальных scaling factors.

6. Сравнение с другими форматами

Формат	Битность	Динамический диапазон	Точность	Скорость (GEMM)	Применение
FP32	32	~1e-38 .. 3e38	высокая	1x	обучение, baseline
FP16	16	~6e-8 .. 6e4	средняя	2x (vs FP32)	стандартный инференс
FP8 (E4M3)	8	-448 .. 448	низкая, но достаточная	4x (vs FP32)	инференс с Transformer Engine
INT8	8	-128 .. 127	низкая, чувствителен к выбросам	4x (vs FP32)	квантование весов

7. Когда использовать FP8 инференс

FP8 инференс оптимален в следующих сценариях:

Большие модели (70B+ параметров), где память является узким местом.
Latency-critical приложения (чат-боты, голосовые ассистенты), где важна скорость одного запроса.
Batch inference (обработка множества запросов одновременно) — FP8 позволяет увеличить batch size без выхода за лимит VRAM.
Agentic RAG — когда агент делает множество последовательных вызовов LLM (например, для планирования, извлечения, генерации), FP8 снижает общее время ответа.

Когда лучше остаться на FP16

Модели малого размера (1B–7B), где память не критична.
Задачи, требующие максимальной точности (например, медицинская диагностика).
Если нет доступа к H100 (FP8 работает только на Hopper и новее).

8. Ограничения и подводные камни

Не все операции поддерживают FP8: только GEMM (матричное умножение). Остальные операции (softmax, layer norm, attention) выполняются в FP16/FP32, поэтому общее ускорение меньше 2x (обычно 1.5–1.8x).
Требуется H100 или новее: FP8 нет на A100, V100.
Чувствительность к распределению данных: если в модели есть слои с большими выбросами, точность может упасть сильнее.
Необходимость FP8-aware fine-tuning: для достижения минимальной потери точности нужно дообучать модель с имитацией FP8 (quantization-aware training, QAT). Это требует дополнительных вычислительных ресурсов.
Scaling factors занимают место: для каждого тензора нужно хранить scale (обычно float32), что немного снижает выигрыш по памяти.

9. Практические рекомендации и пример кода

Для включения FP8 инференса на H100 можно использовать:

TensorRT-LLM — оптимизированный движок для LLM с поддержкой FP8.
PyTorch + Transformer Engine (библиотека transformer_engine от NVIDIA).
NeMo (NVIDIA NeMo Framework) — высокоуровневый инструмент для fine-tuning и инференса.

Пример запуска инференса с Transformer Engine в PyTorch:

import torch
import transformer_engine.pytorch as te

# Загрузка модели (например, LLaMA-2 7B)
model = load_model("llama-2-7b", dtype=torch.float16).cuda()

# Включение FP8 для всех линейных слоёв
te.fp8_autocast(enabled=True):
    with torch.no_grad():
        for batch in dataloader:
            output = model(batch)
            # output будет в FP16, но внутренние GEMM выполнены в FP8

Для TensorRT-LLM:

# Сборка движка с FP8
trtllm-build --model_dir ./llama-7b \
             --dtype float16 \
             --use_fp8 \
             --output_dir ./engine_fp8

# Запуск инференса
python run.py --engine_dir ./engine_fp8 --max_output_len 256

10. Связь с agentic RAG

В контексте Agentic RAG (вопросы 450–460) FP8 инференс играет ключевую роль:

Агенты часто делают множественные вызовы LLM (планирование, извлечение, генерация ответа). FP8 снижает latency каждого вызова, что критично для пользовательского опыта.
В многопользовательских системах FP8 позволяет обслуживать больше агентов одновременно на одном GPU.
Для длинных контекстов (retrieval + генерация) FP8 уменьшает потребление памяти, позволяя удерживать больше документов в контексте.

Пет-проект для закрепления

Задача Сравнить производительность и точность инференса модели LLaMA-2 7B в FP16 и FP8 на H100.

Инструменты

GPU: NVIDIA H100 (80GB)
Библиотеки: PyTorch, Transformer Engine, TensorRT-LLM, Hugging Face Transformers
Датасет: MMLU (5-shot) для оценки точности

Шаги:

Загрузить модель LLaMA-2 7B в FP16.
Измерить latency (среднее время на один токен), throughput (токенов/сек), пиковое потребление VRAM.
Оценить accuracy на MMLU (5-shot) в FP16.
Включить FP8 через Transformer Engine (или TensorRT-LLM).
Повторить измерения latency, throughput, VRAM.
Оценить accuracy на MMLU в FP8.
Сравнить результаты: построить таблицу и графики.

Ожидаемый результат

Ускорение в 1.5–2x по latency и throughput.
Снижение VRAM на ~40–50% (с учётом overhead scaling factors).
Падение accuracy на MMLU не более 1% (если используется FP8-aware fine-tuning или калибровка).

Связь с другими вопросами

Вопрос	Тема
457	Что такое vLLM и PagedAttention?
459	Что такое TensorRT и TensorRT-LLM?
460	Какие методы квантования LLM вы знаете?
461	Что такое PagedAttention и как она работает?
462	Что такое continuous batching?
463	Как работает speculative decoding?

Что такое FP8 инференс на H100 (Transformer Engine)?

Краткий тезис

1. Введение: зачем нужен FP8 инференс

2. Архитектура H100 и Transformer Engine

3. Механизм работы FP8 инференса

4. Преимущества FP8 инференса

5. Влияние на точность

6. Сравнение с другими форматами

7. Когда использовать FP8 инференс

8. Ограничения и подводные камни

9. Практические рекомендации и пример кода

10. Связь с agentic RAG

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Что такое FP8 инференс на H100 (Transformer Engine)?

Краткий тезис

1. Введение: зачем нужен FP8 инференс

2. Архитектура H100 и Transformer Engine

3. Механизм работы FP8 инференса

4. Преимущества FP8 инференса

5. Влияние на точность

6. Сравнение с другими форматами

7. Когда использовать FP8 инференс

8. Ограничения и подводные камни

9. Практические рекомендации и пример кода

10. Связь с agentic RAG

Пет-проект для закрепления

Связь с другими вопросами

Навигация