Поиск

wikiBlackwell architecture
# Blackwell architecture ## Определение Архитектура GPU NVIDIA B200 с пятым поколением Tensor Cores и TMA (Tensor Memory Accelerator) для ускорения операций…
wikiHopper GPU
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
wikiLD/ST
…В современных архитектурах, таких как H100, заменяются асинхронным копированием через TMA для повышения производительности. ## Где встречается - [[706. Что такое TMA…
wikiCDNA3
# CDNA3 ## Определение Архитектура GPU AMD, требующая оптимизации под ROCm ## Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия…
wikiH100
…Как работают Tensor Cores в H100B200 и для чего они нужны|303. Как работают Tensor Cores в H100B200 и для…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Архитектура NVIDIA H100 (Hopper) [[Вики/Hopper GPU\|H100]] построен на архитектуре [[Вики/H100\|Hopper]] и является монолитным кристаллом (один чип…
wikiNVLink 5.0
# NVLink 5.0 ## Определение Пятое поколение NVLink (архитектура Hopper/H100) с увеличенной пропускной способностью по сравнению с предыдущим поколением. ## Где…
wikiTensor parallelism
…Как работает NVLink Switch System на DGX H100|314. Как работает NVLink Switch System на DGX H100]] - [[318. TensorRT-LLM…
answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…В [[Вики/Hopper GPU\|H100]] ([[Вики/Hopper GPU\|архитектура Hopper]], 4-е поколение) и [[Вики/B200\|B200]] ([[Вики/Blackwell architecture…
answerКак работает NVLink Switch System на DGX H100?
…Архитектура DGX H100: 8 GPU, 4 NVSwitch Внутри [[Вики/DGX H100\|DGX H100]]: - 8 [[Вики/GPU\|GPU]] [[Вики/H100\|H100…
answerNVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?
…традиционная архитектура vs Grace Hopper | Параметр | Традиционный сервер (x86 + PCIe + H100) | Grace Hopper (GH200) | | --- | --- | --- | | Пропускная способность CPU↔GPU | 64 ГБ…
answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Сравнительная таблица FA2 vs FA3 | Характеристика | FlashAttention-2 | FlashAttention-3 | |----------------|------------------|------------------| | Архитектура GPU | Ampere (A100), Turing (V100) | Hopper (H100/H800) | | Инструкции…
wikiInfiniBand
…Как работает NVLink Switch System на DGX H100|314. Как работает NVLink Switch System на DGX H100]] - [[402. Что такое…
wikiLinear attention
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiPipeline parallelism
…Как работает NVLink Switch System на DGX H100|314. Как работает NVLink Switch System на DGX H100]] - [[320. Что такое…
answerЧто такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3?
…Архитектура H100 и место TMA [[Вики/Hopper GPU\|NVIDIA H100]] ([[Вики/H100\|Hopper]]) содержит 132 SM, каждый SM имеет: - 4…
wikiprefix caching
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[206. Что такое…
wikiA100
…Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3|706. Что такое TMA (Tensor Memory…
answerКак работает FlashAttention-3 технически? Чем отличается от FA2?
…архитектура Hopper (H100) Architecture [[Вики/H100\|Hopper]] — это поколение [[Вики/GPU\|GPU]] от NVIDIA (2023+), которое принесло ключевые нововведения: | Особенность…
answerКак работает FP8 quantization на H100 (Transformer Engine)?
…Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency\|300]] | Архитектура H100 | --- ## Навигация (Obsidian) - Предыдущий: [[311. Что…
answerКак работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100?
…Архитектура H100: потоковый мультипроцессор (SM) и warp [[Вики/Hopper GPU\|H100]] содержит 132 **SM ([[Вики/SM\|Streaming Multiprocessor]])**. Каждый SM…
wikiFlashAttention
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[201. Что такое…
wikiTensorRT-LLM
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[203. Tensor parallelism…
answerКак вы деплоите LLM с requirement <100ms latency при throughput 1000 req/s? Архитектура.
…H100 vs B200 | Параметр | NVIDIA H100 SXM | NVIDIA B200 | |----------|-----------------|-------------| | FP8 TFLOPS | 1979 | 4500 | | HBM3 память | 80 GB | 192 GB | | [[Вики…
answerКак работает asynchronous execution на Hopper (copy engine vs compute)?
…Архитектура H100: два copy engine + compute В [[Вики/H100\|H100]] реализована асимметричная [[Вики/cognitive schema\|схема]]: | Engine | Назначение | Пропускная способность…
answerКак работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?
…L1 cache / Shared Memory в A100 и H100 | Параметр | A100 (GA100) | H100 (GH100) | |------------------------|--------------------|--------------------| | L1/Shared на SM | 192 КБ | 256…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…Если доступ к [[Вики/H100\|H100]] отсутствует: 1. Используйте эмуляцию [[Вики/FP8\|FP8]] через библиотеку `[[Вики/quantlib\|quantlib]]` или ручное…
answerКак вы реализуете KV cache для 1M токенов на 8x H100?
…Итоговая архитектура для 1M токенов на 8x H100 Комбинируем все методы: 1. [[Вики/model\|Модель]]: Llama-3-70B с GQA…
answerЧто такое FP8 инференс на H100 (Transformer Engine)?
…Архитектура H100 и Transformer Engine [[Вики/Transformer Engine\|Transformer Engine]] — это программно-аппаратный [[Вики/Module\|модуль]] на [[Вики/Hopper GPU…
wikiAttention
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiQuantization
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[202. Как работает…
answerКак работает warp scheduling на NVIDIA GPU и как это влияет на LLM kernels?
…Каждый SM может одновременно держать в состоянии (активных) до 64 warps (на [[Вики/H100\|H100]] — до 64, на [[Вики/A100…
wikispeculative decoding
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[201. Что такое…
answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
…8x H100, глобальный балансировщик с consistent hashing по user_id и автомасштабирование LLM реплик по GPU utilization. Такая архитектура позволяет…
wikiPaged Attention
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] ## Навигация - [[00. Индекс…
wikibatch size
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[205. Как вы…
wikicontinuous batching
…Что такое FP8 инференс на H100 (Transformer Engine)|458. Что такое FP8 инференс на H100 (Transformer Engine)]] - [[459. Как вы…
answerКак работает FlashAttention-3 математически?
…FP8 поддержка и квантизация ошибок [[Вики/H100\|Hopper]] поддерживает два формата [[Вики/FP8\|FP8]]: - [[Вики/Quantization\|E4M3]] (4 бита экспонента…
answerКак PCIe bottleneck проявляется в multi-GPU инференсе?
…PCIe switch vs NVSwitch В современных серверах [[Вики/GPU\|GPU]] могут соединяться двумя способами: | Архитектура | Описание | Пропускная способность | Типичная latency…
wikiPerplexity
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[195. Как вы…
wikiPyTorch
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?
…для production-систем. --- ## 2. Архитектура MIG: как это работает Физический [[Вики/GPU\|GPU]] A100/H100 состоит из множества **SM ([[Вики…
answerПочему vLLM быстрее TGI (Hugging Face Text Generation Inference)?
…TGI поддерживает аналогичную фичу, но реализация менее эффективна. - Поддержка моделей vLLM быстрее адаптируется к новым архитектурам благодаря модульной системе, но…
answerКак работает AudioLM и MusicGen для генерации аудио?
…обе модели требуют [[Вики/GPU\|GPU]] с большим объёмом памяти ([[Вики/A100\|A100]], [[Вики/H100\|H100]]) для генерации в реальном…
answerПочему BF16 лучше FP16 для training?
…современные [[Вики/GPU\|GPU]] ([[Вики/A100\|NVIDIA A100]], [[Вики/H100\|H100]], AMD MI250) и [[Вики/TPU\|TPU]] имеют нативные блоки…
answerКак LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
…Как LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия? ## Краткий тезис [[Вики/LLM\|LLM]] и модели на…
answerЧто такое FlashAttention с точки зрения CUDA programming?
…использует [[Вики/H100\|Hopper]] архитектуру (H100), warp specialization (одни warps загружают данные, другие считают), [[Вики/Asynchronous Execution\|asynchronous execution]]. - [[Вики…
answerКак вы деплоите LLM на spot instances в облаке?
…Использование GPU-инстансов (например, p4d, [[Вики/A100\|A100]], [[Вики/H100\|H100]]) на [[Вики/On-Demand Instances\|on-demand]] может стоить…
answerКак работает эмбеддинг слой и почему его размер (embedding dimension) важен?
…H100\|650]] | Токенизация и размер словаря | | [[660. Что такое gradient clipping и зачем он нужен при обучении LLM\|660]] | Архитектура…
answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
…Как вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура. ## Краткий тезис Проектирование RAG-системы на 10k [[Вики…