Поиск

wikispeculative execution
# speculative execution ## Определение Техника процессоров (CPU), при которой предсказывается исход условного перехода и начинается выполнение одной из веток до проверки…
wikipredicated execution
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikiSETP
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikiPipeline flush
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikiWarp scheduling
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikiLoop unrolling
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikiDivergent control flow
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikiUniform control flow
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikibranch prediction
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikibranch efficiency
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikipredicated instructions
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
answerКак работает speculative execution на GPU для LLM (branch prediction)?
…Speculative execution в контексте LLM: не путать с speculative decoding [[Вики/speculative execution\|Speculative execution]] на GPU — это не то…
wikimemory coalescing
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikibinning
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikiSIMT
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikicausal masking
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikiforward pass
…Как работает asynchronous execution на Hopper (copy engine vs compute)]] - [[838. Как speculative decoding ускоряет inference (детально)|838. Как speculative…
wikiWarp
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikiмаскировка
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikioccupancy
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikiTensor Cores
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikitiling
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikincu
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikiSoftmax
…Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…
wikip50
…Как вы измеряете эффективность speculative decoding|161. Как вы измеряете эффективность speculative decoding]] - [[179. Как вы AB тестируете агентов в…
answerВ чем разница между prefill и decode stage в LLM инференсе?
…для [[Вики/prefill stage\|prefill]] — [[Вики/FlashAttention\|FlashAttention]] и параллельные вычисления, для [[Вики/generation\|decode]] — **[[Вики/speculative decoding\|speculative]] [[Вики…
answerЧто такое Cooperative Groups в CUDA и как использовать для attention?
…Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | FlashAttention: алгоритм и реализация | | [[713. Как работает Mamba (State…
answerКак вы диагностируете, что проблема в memory bandwidth, а не в compute?
…типа: - [[Вики/compute-bound\|Compute-bound]] (ограниченные вычислениями) — [[Вики/Execution time\|время выполнения]] определяется скоростью арифметических операций ([[Вики/Quantization\|FP16…
answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?
…Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | Как вы организуете инференс LLM в Kubernetes? | | [[712. Что…
answerЧто такое FlashAttention с точки зрения CUDA programming?
…использует [[Вики/H100\|Hopper]] архитектуру (H100), warp specialization (одни warps загружают данные, другие считают), [[Вики/Asynchronous Execution\|asynchronous execution]]. - [[Вики…
indexИндекс разборов
…Как работает speculative execution на GPU для LLM (branch prediction)\|711. Как работает speculative execution на GPU для LLM (branch…
indexОглавление
…Как работает speculative execution на GPU для LLM (branch prediction)\|711. Как работает speculative execution на GPU для LLM (branch…
answerКак проектировать аукцион для allocation вычислительных ресурсов между агентами?
…Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | Как обеспечить безопасность взаимодействия агентов? | --- ## Навигация (Obsidian) - Предыдущий: [[718…
answerЧто такое mechanism design для multi-agent systems и как применить к LLM-агентам?
…Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | Что такое multi-agent systems на базе LLM? | | [[712…
answerЧто такое warp divergence в CUDA и как он влияет на attention?
…общее [[Вики/Execution time\|время выполнения]] = сумма времени всех веток. - Снижение [[Вики/occupancy\|occupancy]] (занятости SM): пока [[Вики/Warp\|warp…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Как работает speculative execution на GPU для LLM (branch prediction)\|711]] - Индекс: [[00. Индекс разборов]]
answerHyena: как заменить attention на свертки, сохранив качество?
…Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | Long context: методы расширения контекста | | [[712. Что такое Cooperative…
wikiИндекс терминов
…SpecAugment]] - [[Вики/Specificity|Specificity]] - [[Вики/speculative decoding|speculative decoding]] - [[Вики/speculative execution|speculative execution]] - [[Вики/speedup|speedup]] - [[Вики/Spell correction…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как работает speculative execution на GPU для LLM (branch prediction)?** > _Ответ:_ GPU не имеет сложного branch prediction как CPU (из…