Поиск

  • wikiTransformer Engine

    # Transformer Engine ## Определение Аппаратный модуль и программная библиотека NVIDIA для автоматического управления FP8 quantization и масштабированием на H100/B200. ## Где…

  • wikioutliers

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[458. Что такое…

  • wikitransformer_lens

    # transformer_lens ## Определение Библиотека для анализа активаций нейросетей с помощью forward hooks; используется в representation engineering для изучения внутренних представлений…

  • wikidelayed scaling

    # delayed scaling ## Определение Метод калибровки масштабов в Transformer Engine для FP8 quantization на H100, при котором scaling factor применяется с…

  • wikiNeMo

    # NeMo ## Определение Библиотека NVIDIA для обучения и fine-tuning LLM, поддерживающая FP8 через Transformer Engine, а также построение диалоговых AI…

  • wikiscaling factors

    # scaling factors ## Определение Параметры, используемые Transformer Engine для масштабирования тензоров при конвертации FP16 в FP8, чтобы избежать переполнения. ## Где встречается…

  • answerКак работает FP8 quantization на H100 (Transformer Engine)?

    …Роль Transformer Engine **[[Вики/Transformer Engine\|Transformer Engine]] (TE)** — это программная надстройка над [[Вики/CUDA\|CUDA]] и [[Вики/Tensor Cores…

  • answerЧто такое FP8 инференс на H100 (Transformer Engine)?

    …Архитектура H100 и Transformer Engine [[Вики/Transformer Engine\|Transformer Engine]] — это программно-аппаратный [[Вики/Module\|модуль]] на [[Вики/Hopper GPU…

  • wikiE5M2

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…

  • wikiE4M3

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…

  • wikidynamic scaling

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…

  • wikismooth quantization

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…

  • wikioutlier-aware scaling

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…

  • wikiH100

    # H100 ## Определение Графический процессор NVIDIA архитектуры Hopper с поддержкой FP8 через Transformer Engine и MIG, ключевой для инференса LLM. ## Где…

  • wikiper-tensor scaling

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…

  • wikiBF16

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[461. Почему training…

  • wikiFP8-aware training

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[800+ вопросов|800…

  • wikiper-channel scaling

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[642. Как вы…

  • wikiFP8 quantization

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[642. Как вы…

  • wikiFP32 master weights

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[464. Почему BF16…

  • wikiQuantization-aware training

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[666. Что такое…

  • wikiScale

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[444. Почему 4…

  • wikinnsight

    …альтернатива transformer_lens. Позволяет получать активации и градиенты во время прогона. ## Где встречается - [[297. Что такое representation engineering (RepE) и…

  • wikigradient scaling

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[464. Почему BF16…

  • wikiTensor Cores

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[324. Что такое…

  • wikiMegatron-LM

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[423. Как работает…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100

    …Цель задачи Освоить использование библиотеки [[Вики/Transformer Engine\|Transformer Engine]] для выполнения инференса [[Вики/GPT-4o\|LLM]] в формате [[Вики…

  • wikite.Linear

    # te.Linear ## Определение Линейный слой из Transformer Engine, поддерживающий FP8 вычисления для ускоренного инференса. ## Где встречается - [[214. Реализовать FP8 инференс…

  • answerЧто такое representation engineering (RepE) и зачем он нужен?

    transformers\|transformers]]` с хуками) сдвиг применяется через `register_forward_hook`. --- ## 7. Ограничения и риски RepE - Линейность: [[Вики/representation engineering\|RepE…

  • wikite.LayerNorm

    # te.LayerNorm ## Определение Реализация слоя нормализации из библиотеки Transformer Engine, оптимизированная для вычислений в FP16 и FP8 при инференсе. ## Где…

  • wikiGEMM

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[703. Как работает…

  • wikiFP8

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[460. Как работает…

  • wikimixed precision training

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[426. Что такое…

  • wikiLayerNorm

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[361. Как работает…

  • wikitransformers

    # transformers ## Определение Библиотека от Hugging Face для загрузки, обучения и инференса предобученных моделей на архитектуре Transformer, широко используемая в NLP…

  • answerКак работает CLIP (Contrastive Language-Image Pre-training) внутренне?

    …Инструменты: - [[Вики/SQL\|Python]], [[Вики/PyTorch\|PyTorch]] - Библиотека `[[Вики/open_clip\|open_clip]]` (или `[[Вики/transformers\|transformers]]` с моделью `clip…

  • wikiCalibration

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[486. Почему LLM…

  • answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?

    …Специализированные блоки для матричных умножений, критически важных для [[Вики/GPT-4o\|LLM]]. - [[Вики/Transformer Engine\|Transformer Engine]]: аппаратный [[Вики/блок…

  • wiki8-bit quantization

    …Как работает FP8 quantization на H100 (Transformer Engine)|312. Как работает FP8 quantization на H100 (Transformer Engine)]] - [[325. Как вы…

  • answerКак работают Tensor Cores в H100/B200 и для чего они нужны?

    …Ключевые особенности: - [[Вики/Transformer Engine\|Transformer Engine]] — аппаратный [[Вики/блок фиксированного размера\|блок]], который автоматически выбирает оптимальную [[Вики/accuracy\|точность…

  • answerКак вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?

    engineering\|запрос]]. При [[Вики/Batch inference\|batch]]=64 → 4 GB. Сравнение архитектур | Архитектура | KV cache | Зависимость от seq_len | |-------------|----------|------------------------| | Transformer

  • wikiMMLU

    …Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[477. Что такое…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune embedding для юридического домена

    …Вики/Prompt engineering\|запрос]] = 1 договор ~500 токенов. ## 3. Технологический стек | Компонент | Инструменты | Назначение | |---|---|---| | Embedding model | `sentence-transformers` (база `all…

  • answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?

    …Используется в библиотеках типа [[Вики/Transformer Engine\|Transformer Engine]]. - Не подходит для Старых GPU (V100, A100 не поддерживают FP8 аппаратно…

  • answerКак работает Zero-shot classification для изображений (CLIP vs другие методы)?

    …Пример кода на Python с Hugging Face `transformers`: ```python from transformers import CLIPProcessor, CLIPModel from PIL import Image model = CLIPModel…

  • answerЧто такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?

    …Пример на Python (используем библиотеку `transformers` для проверки ответа модели): ```python from transformers import pipeline generator = pipeline("text-generation", model…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить recurrent memory для long context

    …Загрузите [[Вики/model\|модель]] [[Вики/GPT-4o\|LLM]] (например, `[[Вики/GPT-2\|GPT2LMHeadModel]]` from [[Вики/transformers\|transformers]]). 2. Напишите функцию…

  • answerКак вы проводите chaos engineering для RAG системы?

    …Если упадёт embedding [[Вики/API\|API]], не получится даже обработать [[Вики/Prompt engineering\|запрос]]. Без [[Вики/chaos engineering\|chaos engineering

  • answerЧто такое adversarial prompt detection для реального времени (runtime)?

    …Обычно реализуется в виде лёгкого классификатора ([[Вики/Transformer\|BERT]], [[Вики/Llama Guard\|Llama Guard]]) или набора правил, встроенного в [[Вики…

  • answerКак вы fine-tune embedding модель под свой домен (а не используете готовую)?

    …Ключевые инструменты — библиотеки **[[Вики/embedding\|Sentence-Transformers]]** и [[Вики/transformers\|Hugging Face]], базовые модели — семейства `intfloat/e5` или `BAAI/bge…