Поиск
- wikiTransformer Engine
# Transformer Engine ## Определение Аппаратный модуль и программная библиотека NVIDIA для автоматического управления FP8 quantization и масштабированием на H100/B200. ## Где…
- wikioutliers
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[458. Что такое…
- wikitransformer_lens
# transformer_lens ## Определение Библиотека для анализа активаций нейросетей с помощью forward hooks; используется в representation engineering для изучения внутренних представлений…
- wikidelayed scaling
# delayed scaling ## Определение Метод калибровки масштабов в Transformer Engine для FP8 quantization на H100, при котором scaling factor применяется с…
- wikiNeMo
# NeMo ## Определение Библиотека NVIDIA для обучения и fine-tuning LLM, поддерживающая FP8 через Transformer Engine, а также построение диалоговых AI…
- wikiscaling factors
# scaling factors ## Определение Параметры, используемые Transformer Engine для масштабирования тензоров при конвертации FP16 в FP8, чтобы избежать переполнения. ## Где встречается…
- answerКак работает FP8 quantization на H100 (Transformer Engine)?
…Роль Transformer Engine **[[Вики/Transformer Engine\|Transformer Engine]] (TE)** — это программная надстройка над [[Вики/CUDA\|CUDA]] и [[Вики/Tensor Cores…
- answerЧто такое FP8 инференс на H100 (Transformer Engine)?
…Архитектура H100 и Transformer Engine [[Вики/Transformer Engine\|Transformer Engine]] — это программно-аппаратный [[Вики/Module\|модуль]] на [[Вики/Hopper GPU…
- wikiE5M2
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikiE4M3
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikidynamic scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikismooth quantization
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikioutlier-aware scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikiH100
# H100 ## Определение Графический процессор NVIDIA архитектуры Hopper с поддержкой FP8 через Transformer Engine и MIG, ключевой для инференса LLM. ## Где…
- wikiper-tensor scaling
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
- wikiBF16
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[461. Почему training…
- wikiFP8-aware training
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[800+ вопросов|800…
- wikiper-channel scaling
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[642. Как вы…
- wikiFP8 quantization
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[642. Как вы…
- wikiFP32 master weights
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[464. Почему BF16…
- wikiQuantization-aware training
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[666. Что такое…
- wikiScale
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[444. Почему 4…
- wikinnsight
…альтернатива transformer_lens. Позволяет получать активации и градиенты во время прогона. ## Где встречается - [[297. Что такое representation engineering (RepE) и…
- wikigradient scaling
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[464. Почему BF16…
- wikiTensor Cores
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[324. Что такое…
- wikiMegatron-LM
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[423. Как работает…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…Цель задачи Освоить использование библиотеки [[Вики/Transformer Engine\|Transformer Engine]] для выполнения инференса [[Вики/GPT-4o\|LLM]] в формате [[Вики…
- wikite.Linear
# te.Linear ## Определение Линейный слой из Transformer Engine, поддерживающий FP8 вычисления для ускоренного инференса. ## Где встречается - [[214. Реализовать FP8 инференс…
- answerЧто такое representation engineering (RepE) и зачем он нужен?
…transformers\|transformers]]` с хуками) сдвиг применяется через `register_forward_hook`. --- ## 7. Ограничения и риски RepE - Линейность: [[Вики/representation engineering\|RepE…
- wikite.LayerNorm
# te.LayerNorm ## Определение Реализация слоя нормализации из библиотеки Transformer Engine, оптимизированная для вычислений в FP16 и FP8 при инференсе. ## Где…
- wikiGEMM
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[703. Как работает…
- wikiFP8
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[460. Как работает…
- wikimixed precision training
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[426. Что такое…
- wikiLayerNorm
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[361. Как работает…
- wikitransformers
# transformers ## Определение Библиотека от Hugging Face для загрузки, обучения и инференса предобученных моделей на архитектуре Transformer, широко используемая в NLP…
- answerКак работает CLIP (Contrastive Language-Image Pre-training) внутренне?
…Инструменты: - [[Вики/SQL\|Python]], [[Вики/PyTorch\|PyTorch]] - Библиотека `[[Вики/open_clip\|open_clip]]` (или `[[Вики/transformers\|transformers]]` с моделью `clip…
- wikiCalibration
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[486. Почему LLM…
- answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Специализированные блоки для матричных умножений, критически важных для [[Вики/GPT-4o\|LLM]]. - [[Вики/Transformer Engine\|Transformer Engine]]: аппаратный [[Вики/блок…
- wiki8-bit quantization
…Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[325. Как вы…
- answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…Ключевые особенности: - [[Вики/Transformer Engine\|Transformer Engine]] — аппаратный [[Вики/блок фиксированного размера\|блок]], который автоматически выбирает оптимальную [[Вики/accuracy\|точность…
- answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
…engineering\|запрос]]. При [[Вики/Batch inference\|batch]]=64 → 4 GB. Сравнение архитектур | Архитектура | KV cache | Зависимость от seq_len | |-------------|----------|------------------------| | Transformer…
- wikiMMLU
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[477. Что такое…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune embedding для юридического домена
…Вики/Prompt engineering\|запрос]] = 1 договор ~500 токенов. ## 3. Технологический стек | Компонент | Инструменты | Назначение | |---|---|---| | Embedding model | `sentence-transformers` (база `all…
- answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…Используется в библиотеках типа [[Вики/Transformer Engine\|Transformer Engine]]. - Не подходит для Старых GPU (V100, A100 не поддерживают FP8 аппаратно…
- answerКак работает Zero-shot classification для изображений (CLIP vs другие методы)?
…Пример кода на Python с Hugging Face `transformers`: ```python from transformers import CLIPProcessor, CLIPModel from PIL import Image model = CLIPModel…
- answerЧто такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?
…Пример на Python (используем библиотеку `transformers` для проверки ответа модели): ```python from transformers import pipeline generator = pipeline("text-generation", model…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить recurrent memory для long context
…Загрузите [[Вики/model\|модель]] [[Вики/GPT-4o\|LLM]] (например, `[[Вики/GPT-2\|GPT2LMHeadModel]]` from [[Вики/transformers\|transformers]]). 2. Напишите функцию…
- answerКак вы проводите chaos engineering для RAG системы?
…Если упадёт embedding [[Вики/API\|API]], не получится даже обработать [[Вики/Prompt engineering\|запрос]]. Без [[Вики/chaos engineering\|chaos engineering…
- answerЧто такое adversarial prompt detection для реального времени (runtime)?
…Обычно реализуется в виде лёгкого классификатора ([[Вики/Transformer\|BERT]], [[Вики/Llama Guard\|Llama Guard]]) или набора правил, встроенного в [[Вики…
- answerКак вы fine-tune embedding модель под свой домен (а не используете готовую)?
…Ключевые инструменты — библиотеки **[[Вики/embedding\|Sentence-Transformers]]** и [[Вики/transformers\|Hugging Face]], базовые модели — семейства `intfloat/e5` или `BAAI/bge…