Поиск

wikiTransformer Engine
# Transformer Engine ## Определение Аппаратный модуль и программная библиотека NVIDIA для автоматического управления FP8 quantization и масштабированием на H100/B200. ## Где…
wikioutliers
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[458. Что такое…
wikitransformer_lens
# transformer_lens ## Определение Библиотека для анализа активаций нейросетей с помощью forward hooks; используется в representation engineering для изучения внутренних представлений…
wikidelayed scaling
# delayed scaling ## Определение Метод калибровки масштабов в Transformer Engine для FP8 quantization на H100, при котором scaling factor применяется с…
wikiNeMo
# NeMo ## Определение Библиотека NVIDIA для обучения и fine-tuning LLM, поддерживающая FP8 через Transformer Engine, а также построение диалоговых AI…
wikiscaling factors
# scaling factors ## Определение Параметры, используемые Transformer Engine для масштабирования тензоров при конвертации FP16 в FP8, чтобы избежать переполнения. ## Где встречается…
answerКак работает FP8 quantization на H100 (Transformer Engine)?
…Роль Transformer Engine **[[Вики/Transformer Engine\|Transformer Engine]] (TE)** — это программная надстройка над [[Вики/CUDA\|CUDA]] и [[Вики/Tensor Cores…
answerЧто такое FP8 инференс на H100 (Transformer Engine)?
…Архитектура H100 и Transformer Engine [[Вики/Transformer Engine\|Transformer Engine]] — это программно-аппаратный [[Вики/Module\|модуль]] на [[Вики/Hopper GPU…
wikiE5M2
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikiE4M3
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikidynamic scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikismooth quantization
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikioutlier-aware scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikiH100
# H100 ## Определение Графический процессор NVIDIA архитектуры Hopper с поддержкой FP8 через Transformer Engine и MIG, ключевой для инференса LLM. ## Где…
wikiper-tensor scaling
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikiBF16
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[461. Почему training…
wikiFP8-aware training
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[800+ вопросов|800…
wikiper-channel scaling
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[642. Как вы…
wikiFP8 quantization
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[642. Как вы…
wikiFP32 master weights
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[464. Почему BF16…
wikiQuantization-aware training
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[666. Что такое…
wikiScale
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[444. Почему 4…
wikinnsight
…альтернатива transformer_lens. Позволяет получать активации и градиенты во время прогона. ## Где встречается - [[297. Что такое representation engineering (RepE) и…
wikigradient scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[464. Почему BF16…
wikiTensor Cores
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[324. Что такое…
wikiMegatron-LM
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[423. Как работает…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…Цель задачи Освоить использование библиотеки [[Вики/Transformer Engine\|Transformer Engine]] для выполнения инференса [[Вики/GPT-4o\|LLM]] в формате [[Вики…
wikite.Linear
# te.Linear ## Определение Линейный слой из Transformer Engine, поддерживающий FP8 вычисления для ускоренного инференса. ## Где встречается - [[214. Реализовать FP8 инференс…
answerЧто такое representation engineering (RepE) и зачем он нужен?
…transformers\|transformers]]` с хуками) сдвиг применяется через `register_forward_hook`. --- ## 7. Ограничения и риски RepE - Линейность: [[Вики/representation engineering\|RepE…
wikite.LayerNorm
# te.LayerNorm ## Определение Реализация слоя нормализации из библиотеки Transformer Engine, оптимизированная для вычислений в FP16 и FP8 при инференсе. ## Где…
wikiGEMM
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[703. Как работает…
wikiFP8
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[460. Как работает…
wikimixed precision training
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[426. Что такое…
wikiLayerNorm
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[361. Как работает…
wikitransformers
# transformers ## Определение Библиотека от Hugging Face для загрузки, обучения и инференса предобученных моделей на архитектуре Transformer, широко используемая в NLP…
answerКак работает CLIP (Contrastive Language-Image Pre-training) внутренне?
…Инструменты: - [[Вики/SQL\|Python]], [[Вики/PyTorch\|PyTorch]] - Библиотека `[[Вики/open_clip\|open_clip]]` (или `[[Вики/transformers\|transformers]]` с моделью `clip…
wikiCalibration
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[486. Почему LLM…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Специализированные блоки для матричных умножений, критически важных для [[Вики/GPT-4o\|LLM]]. - [[Вики/Transformer Engine\|Transformer Engine]]: аппаратный [[Вики/блок…
wiki8-bit quantization
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[325. Как вы…
answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…Ключевые особенности: - [[Вики/Transformer Engine\|Transformer Engine]] — аппаратный [[Вики/блок фиксированного размера\|блок]], который автоматически выбирает оптимальную [[Вики/accuracy\|точность…
answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
…engineering\|запрос]]. При [[Вики/Batch inference\|batch]]=64 → 4 GB. Сравнение архитектур | Архитектура | KV cache | Зависимость от seq_len | |-------------|----------|------------------------| | Transformer…
wikiMMLU
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[477. Что такое…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune embedding для юридического домена
…Вики/Prompt engineering\|запрос]] = 1 договор ~500 токенов. ## 3. Технологический стек | Компонент | Инструменты | Назначение | |---|---|---| | Embedding model | `sentence-transformers` (база `all…
answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…Используется в библиотеках типа [[Вики/Transformer Engine\|Transformer Engine]]. - Не подходит для Старых GPU (V100, A100 не поддерживают FP8 аппаратно…
answerКак работает Zero-shot classification для изображений (CLIP vs другие методы)?
…Пример кода на Python с Hugging Face `transformers`: ```python from transformers import CLIPProcessor, CLIPModel from PIL import Image model = CLIPModel…
answerЧто такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?
…Пример на Python (используем библиотеку `transformers` для проверки ответа модели): ```python from transformers import pipeline generator = pipeline("text-generation", model…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить recurrent memory для long context
…Загрузите [[Вики/model\|модель]] [[Вики/GPT-4o\|LLM]] (например, `[[Вики/GPT-2\|GPT2LMHeadModel]]` from [[Вики/transformers\|transformers]]). 2. Напишите функцию…
answerКак вы проводите chaos engineering для RAG системы?
…Если упадёт embedding [[Вики/API\|API]], не получится даже обработать [[Вики/Prompt engineering\|запрос]]. Без [[Вики/chaos engineering\|chaos engineering…
answerЧто такое adversarial prompt detection для реального времени (runtime)?
…Обычно реализуется в виде лёгкого классификатора ([[Вики/Transformer\|BERT]], [[Вики/Llama Guard\|Llama Guard]]) или набора правил, встроенного в [[Вики…
answerКак вы fine-tune embedding модель под свой домен (а не используете готовую)?
…Ключевые инструменты — библиотеки **[[Вики/embedding\|Sentence-Transformers]]** и [[Вики/transformers\|Hugging Face]], базовые модели — семейства `intfloat/e5` или `BAAI/bge…