Поиск
- wikispeculative execution
# speculative execution ## Определение Техника процессоров (CPU), при которой предсказывается исход условного перехода и начинается выполнение одной из веток до проверки…
- wikipredicated execution
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikiSETP
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikiPipeline flush
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikiWarp scheduling
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikiLoop unrolling
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikiDivergent control flow
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikiUniform control flow
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikibranch prediction
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikibranch efficiency
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikipredicated instructions
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- answerКак работает speculative execution на GPU для LLM (branch prediction)?
…Speculative execution в контексте LLM: не путать с speculative decoding [[Вики/speculative execution\|Speculative execution]] на GPU — это не то…
- wikimemory coalescing
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikibinning
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikiSIMT
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikicausal masking
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikiforward pass
…Как работает asynchronous execution на Hopper (copy engine vs compute)]] - [[838. Как speculative decoding ускоряет inference (детально)|838. Как speculative…
- wikiWarp
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikiмаскировка
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikioccupancy
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikiTensor Cores
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikitiling
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikincu
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikiSoftmax
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
- wikip50
…Как вы измеряете эффективность speculative decoding|161. Как вы измеряете эффективность speculative decoding]] - [[179. Как вы AB тестируете агентов в…
- answerВ чем разница между prefill и decode stage в LLM инференсе?
…для [[Вики/prefill stage\|prefill]] — [[Вики/FlashAttention\|FlashAttention]] и параллельные вычисления, для [[Вики/generation\|decode]] — **[[Вики/speculative decoding\|speculative]] [[Вики…
- answerЧто такое Cooperative Groups в CUDA и как использовать для attention?
…Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | FlashAttention: алгоритм и реализация | | [[713. Как работает Mamba (State…
- answerКак вы диагностируете, что проблема в memory bandwidth, а не в compute?
…типа: - [[Вики/compute-bound\|Compute-bound]] (ограниченные вычислениями) — [[Вики/Execution time\|время выполнения]] определяется скоростью арифметических операций ([[Вики/Quantization\|FP16…
- answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?
…Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | Как вы организуете инференс LLM в Kubernetes? | | [[712. Что…
- answerЧто такое FlashAttention с точки зрения CUDA programming?
…использует [[Вики/H100\|Hopper]] архитектуру (H100), warp specialization (одни warps загружают данные, другие считают), [[Вики/Asynchronous Execution\|asynchronous execution]]. - [[Вики…
- indexИндекс разборов
…Как работает speculative execution на GPU для LLM (branch prediction)\|711. Как работает speculative execution на GPU для LLM (branch…
- indexОглавление
…Как работает speculative execution на GPU для LLM (branch prediction)\|711. Как работает speculative execution на GPU для LLM (branch…
- answerКак проектировать аукцион для allocation вычислительных ресурсов между агентами?
…Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | Как обеспечить безопасность взаимодействия агентов? | --- ## Навигация (Obsidian) - Предыдущий: [[718…
- answerЧто такое mechanism design для multi-agent systems и как применить к LLM-агентам?
…Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | Что такое multi-agent systems на базе LLM? | | [[712…
- answerЧто такое warp divergence в CUDA и как он влияет на attention?
…общее [[Вики/Execution time\|время выполнения]] = сумма времени всех веток. - Снижение [[Вики/occupancy\|occupancy]] (занятости SM): пока [[Вики/Warp\|warp…
- answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Как работает speculative execution на GPU для LLM (branch prediction)\|711]] - Индекс: [[00. Индекс разборов]]
- answerHyena: как заменить attention на свертки, сохранив качество?
…Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | Long context: методы расширения контекста | | [[712. Что такое Cooperative…
- wikiИндекс терминов
…SpecAugment]] - [[Вики/Specificity|Specificity]] - [[Вики/speculative decoding|speculative decoding]] - [[Вики/speculative execution|speculative execution]] - [[Вики/speedup|speedup]] - [[Вики/Spell correction…
- question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как работает speculative execution на GPU для LLM (branch prediction)?** > _Ответ:_ GPU не имеет сложного branch prediction как CPU (из…