Поиск
- wikiGPU acceleration
# GPU acceleration ## Определение Перенос вычислений на GPU для сокращения времени генерации и инференса LLM. Применяется при работе с большими моделями…
- wikioperator optimization
# operator optimization ## Определение Операторные оптимизации в TensorRT-LLM, направленные на ускорение инференса за счёт слияния и перестановки операций. ## Где встречается…
- wikiFP8 Tensor Core
…операций умножения матриц с FP8 точностью, что обеспечивает значительное ускорение инференса и обучения. ## Где встречается - [[214. Реализовать FP8 инференс на…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…Ключевой результат Рабочий скрипт инференса модели в [[Вики/FP8\|FP8]] с измеримым ускорением ≥2x относительно [[Вики/FP16\|FP16]] и падением…
- wikispeedup
# speedup ## Определение Фактор ускорения инференса, показывающий отношение времени выполнения без оптимизации ко времени с оптимизацией (например, speculative decoding). Типичные значения…
- answerКак работает speculative decoding? Как выбрать draft модель?
…Если draft модель слишком медленная (например, 7B), ускорение может быть отрицательным. - Параллельная верификация требует модификации кода инференса (поддержка **causal masking…
- answerКак работает tensor parallelism с FP8 в vLLM?
…для инференса. - Поддержка на [[Вики/H100\|H100]] ([[Вики/H100\|Hopper]]) и более новых [[Вики/GPU\|GPU]]. - [[Вики/speedup\|Ускорение]] за…
- answerКакие trade-offs между разными архитектурами speculative decoding?
…acceptance rate ~60%, ускорение ~2x. - Medusa: acceptance rate ~70%, ускорение ~2.5x. - EAGLE: acceptance rate ~80%, ускорение ~3x. - Вывод: EAGLE…
- answerЧто такое EAGLE-3 и чем он отличается от стандартного speculative decoding?
…Что такое Variational Speculative Decoding (VSD) и чем он революционен\|160]] | Как acceptance rate влияет на ускорение инференса? | | [[155. Что…
- answerЧто такое Medusa (multiple heads) для speculative decoding?
…На практике acceptance rate 60–70% даёт ускорение 2–3×. --- ## 7. Acceptance rate и ускорение **Acceptance rate** — доля токенов, сгенерированных…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RWKV для инференса
…Настроить RWKV для инференса ## 1. Цель задачи Научиться запускать [[Вики/forward pass\|инференс]] модели [[Вики/RWKV\|RWKV]] на [[Вики/CPU…
- answerКак работают CUDA graphs и когда их использовать?
…Ожидаемый результат Ускорение 15–30% для длины 64–128 токенов; для длины 1024+ ускорение падает до 5–10%. График зависимости…
- answerЧто такое FP8 инференс на H100 (Transformer Engine)?
…операцию | выше | ниже | экономия энергии | Ключевые выгоды - [[Вики/speedup\|Ускорение]] инференса до 2x для матричных операций (доминирующих в [[Вики/GPT…
- answerКак работает Torch Compile (torch.compile) и в чем его ограничения для LLM?
…Для [[Вики/LLM\|LLM]] он даёт значительное [[Вики/speedup\|ускорение]] инференса (1.5–3x), но имеет [[Вики/constraints\|ограничения]]: [[Вики…
- answerЧто такое torch.compile и как он ускоряет training?
…За счёт чего достигается ускорение training [[Вики/speedup\|Ускорение]] в [[Вики/backpropagation\|forward]] + [[Вики/backpropagation\|backward]] складывается из нескольких факторов…
- answerЧто такое CUDA graphs и как они ускоряют LLM инференс?
…10–30% для коротких запросов | Условие | Ускорение (типичное) | Причина | |---------|----------------------|---------| | Batch size = 1, короткая последовательность (≤512 токенов) | 20–30% | Overhead составляет…
- wikiGPTQ
…Требует калибровки на датасете, обеспечивает высокое качество (до 98%) и ускорение инференса. ## Где встречается - [[61. Как вы разворачиваете LLM в…
- answerПочему MoE (Mixture of Experts) быстрее dense модели при инференсе?
…Почему это важно для инференса В стандартной [[Вики/векторный поиск\|dense]] модели (например, [[Вики/Transformer\|LLaMA]]) на каждом слое обрабатываются…
- answerКак работает speculative decoding с несколькими draft моделями?
…Чем выше [[Вики/acceptance rate\|acceptance rate]], тем больше [[Вики/speedup\|ускорение]]. **[[Вики/Tree Attention\|Tree attention]]** — механизм, при котором…
- answerЧто такое Learned Index Structures for ANN? Новые подходы 2025-2026?
…Как достигается ускорение на 30–50% | Фактор | Вклад в ускорение | |--------|-------------------| | Сокращение числа операций I/O | Вместо обхода нескольких страниц — одна…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить CUDA graphs для коротких запросов
…генерации. [[Вики/Ключевой результат\|Ключевой результат]] Воспроизводимый скрипт, демонстрирующий ускорение инференса с помощью CUDA graphs на синтетических запросах. --- ## 2. Исходные…
- answerЧто такое prefix caching и когда он эффективен?
…Что такое prefix caching и когда он эффективен? ## Краткий тезис [[Вики/prefix caching\|Prefix caching]] — это техника оптимизации инференса [[Вики…
- answerКакие есть методы ускорения тест-тайм компьютинга? (KV-cache, speculative decoding)
…Ожидаемый результат Вы увидите ускорение в 1.5–2× для K=5. Если draft-модель слишком слабая, ускорение может быть…
- answerЧто такое Variational Speculative Decoding (VSD) и чем он революционен?
…Высокий, так как draft модель учится подстраиваться под target | | Ускорение инференса | Умеренное (обычно 2-3x) | Потенциально выше (до 5-10x…
- wikiacceptance rate
…Высокий acceptance rate (например, 78-82%) означает меньшее число итераций и ускорение инференса. ## Где встречается - [[158. Что такое EAGLE-3…
- answerКак вы выбираете между online и batch инференсом для LLM?
…Online | | **Speculative Decoding** | Ускорение генерации за счёт маленькой модели | Online | | [[Вики/Ray Serve\|Ray Serve]] | Масштабирование инференса | Online/Batch | | AWS…
- answerКак работает speculative decoding на уровне логитов, а не токенов?
…Ускорение инференса позволяет агенту: - Быстрее отвечать пользователю. - Делать больше итераций поиска и анализа за то же время. - Использовать большие модели…
- answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Первая версия (FA1, 2022) показала [[Вики/speedup\|ускорение]] в 2–3 раза. Вторая ([[Вики/Flash Attention 2\|FA2]], 2023) улучшила…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать speculative decoding с draft моделью
…Цель задачи Освоить технику **speculative decoding** — ускорение инференса большой языковой модели (target) с помощью маленькой быстрой модели (draft). Реализовать pipeline…
- answerКак работает prefix caching и prompt caching у провайдеров?
…10 мин у Anthropic, платное хранение у Gemini) | | Экономия | Ускорение инференса (latency снижается на prefill) | Снижение стоимости API (до 90…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: vLLM кластер на 4 GPU
…Вычислить ускорение ```python speedup = throughput_tp4 / throughput_baseline print(f"Speedup: {speedup:.2f}x") ``` Если ускорение <2× → перейти к этапу…
- answerЧто такое kernel fusion и как он применяется в LLM serving?
…Без kernel fusion современные LLM не могли бы достичь требуемой скорости инференса. --- ## 1. Что такое kernel fusion (слияние ядер) [[Вики…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать diffusion LLM (PLANNER)
…Attention masking в трансформерах | | 304 | Cosine noise schedule | | 408 | Ускорение инференса LLM (специализированные техники) | | 512 | Модульное тестирование пайплайнов генерации | | 623…
- answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…Для чего нужны Tensor Cores? ### 7.1 Ускорение GEMM — основы нейросетей Любая операция в нейросети — это, по сути, [[Вики/GEMM…
- answerКак работает FP8 quantization на H100 (Transformer Engine)?
…Ускорение и экономия памяти - [[Вики/speedup\|Ускорение]]: Матричные умножения в [[Вики/FP8\|FP8]] выполняются примерно в 2 раза быстрее на…
- answerКакую LLM вы выберете для "быстрых" (<200ms) простых задач классификации?
…Кроме того, их [[Вики/Inference cost\|стоимость инференса]] и [[Вики/memory footprint\|потребление памяти]] выше. ## 2. Три основных подхода к…
- answerEAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?
…сравнение speculative decoding методов? ## Краткий тезис [[Вики/Wave Decoding\|Speculative decoding]] — это техника ускорения инференса [[Вики/LLM\|LLM]] без [[Вики…
- answerКак устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс?
…Для [[Вики/LLM\|LLM]] инференса узким местом является [[Вики/Memory Bandwidth\|memory bandwidth]], а не [[Вики/compute\|compute]], потому что…
- answerКак работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism\|401]] | Как вы уменьшаете latency LLM-инференса…
- answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?
…Что такое TVM (Apache TVM) и зачем он нужен для AI инференса? ## Краткий тезис [[Вики/Apache TVM\|Apache TVM]] — это…
- answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…сравнение форматов квантизации для инференса? ## Краткий тезис [[Вики/Quantization\|Квантизация]] нейросетей — это метод сжатия модели для уменьшения объёма памяти и…
- answerЧто такое prefix caching и когда он эффективен?
…Что такое prefix caching и когда он эффективен? ## Краткий тезис [[Вики/prefix caching\|Prefix caching]] — это техника оптимизации инференса [[Вики…
- answerЧто такое FP16, BF16, FP8, INT8 quantization? Когда что использовать?
…Для [[Вики/LLM\|LLM]] с миллиардами параметров это критично. - [[Вики/speedup\|Ускорение]] инференса Меньший объём данных быстрее передаётся по шинам…
- answerКак speculative decoding взаимодействует с KV cache?
…Как speculative decoding взаимодействует с KV cache? ## Краткий тезис **Speculative decoding (SD)** — техника ускорения инференса LLM, при которой маленькая draft…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть Mamba-2 локально и сравнить perplexity с Llama-3-8B на длинном контексте
…Дополнительно фиксируется [[Вики/Latency\|скорость инференса]] и [[Вики/memory footprint\|потребление памяти]]. Ключевой результат На длинных контекстах [[Вики/State Space…
- answerКак работает Multi-query attention (MQA) для long context?
…4.2. [[Вики/speedup\|Ускорение]] инференса - Меньше операций записи/чтения [[Вики/KV-cache\|KV cache]] ([[Вики/memory-bound\|bandwidth-bound…
- answerКак вы деплоите speculative decoding в production?
…Как вы деплоите speculative decoding в production? ## Краткий тезис [[Вики/Wave Decoding\|Speculative decoding]] — это техника ускорения инференса [[Вики/LLM…
- answerКак работает scheduler в vLLM? Какие алгоритмы выбора запросов?
…Как работает scheduler в vLLM? Какие алгоритмы выбора запросов? ## Краткий тезис [[Вики/VLLM\|vLLM]] — это высокопроизводительная библиотека для инференса [[Вики…
- answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…Даёт лучшее [[Вики/speedup\|ускорение]] (до 2x на [[Вики/CPU\|CPU]]). Пример квантизации модели через [[Вики/HuggingFace Optimum\|Optimum]] ```python…
- answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…Использует графовые оптимизации, поддержку FP8/INT4, многократное [[Вики/speedup\|ускорение]] за счёт **[[Вики/CUDA graphs\|CUDA graphs]]** (запись последовательности операций…