Поиск

  • wikispeculative execution

    # speculative execution ## Определение Техника процессоров (CPU), при которой предсказывается исход условного перехода и начинается выполнение одной из веток до проверки…

  • wikipredicated execution

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikiSETP

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikiPipeline flush

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikiWarp scheduling

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikiLoop unrolling

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikiDivergent control flow

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikiUniform control flow

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikibranch prediction

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikibranch efficiency

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikipredicated instructions

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • answerКак работает speculative execution на GPU для LLM (branch prediction)?

    Speculative execution в контексте LLM: не путать с speculative decoding [[Вики/speculative execution\|Speculative execution]] на GPU — это не то…

  • wikimemory coalescing

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikibinning

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikiSIMT

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikicausal masking

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikiforward pass

    …Как работает asynchronous execution на Hopper (copy engine vs compute)]] - [[838. Как speculative decoding ускоряет inference (детально)|838. Как speculative

  • wikiWarp

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikiмаскировка

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikioccupancy

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikiTensor Cores

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikitiling

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikincu

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikiSoftmax

    …Как работает speculative execution на GPU для LLM (branch prediction)|711. Как работает speculative execution на GPU для LLM (branch…

  • wikip50

    …Как вы измеряете эффективность speculative decoding|161. Как вы измеряете эффективность speculative decoding]] - [[179. Как вы AB тестируете агентов в…

  • answerВ чем разница между prefill и decode stage в LLM инференсе?

    …для [[Вики/prefill stage\|prefill]] — [[Вики/FlashAttention\|FlashAttention]] и параллельные вычисления, для [[Вики/generation\|decode]] — **[[Вики/speculative decoding\|speculative]] [[Вики…

  • answerЧто такое Cooperative Groups в CUDA и как использовать для attention?

    …Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | FlashAttention: алгоритм и реализация | | [[713. Как работает Mamba (State…

  • answerКак вы диагностируете, что проблема в memory bandwidth, а не в compute?

    …типа: - [[Вики/compute-bound\|Compute-bound]] (ограниченные вычислениями) — [[Вики/Execution time\|время выполнения]] определяется скоростью арифметических операций ([[Вики/Quantization\|FP16…

  • answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?

    …Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | Как вы организуете инференс LLM в Kubernetes? | | [[712. Что…

  • answerЧто такое FlashAttention с точки зрения CUDA programming?

    …использует [[Вики/H100\|Hopper]] архитектуру (H100), warp specialization (одни warps загружают данные, другие считают), [[Вики/Asynchronous Execution\|asynchronous execution]]. - [[Вики…

  • indexИндекс разборов

    …Как работает speculative execution на GPU для LLM (branch prediction)\|711. Как работает speculative execution на GPU для LLM (branch…

  • indexОглавление

    …Как работает speculative execution на GPU для LLM (branch prediction)\|711. Как работает speculative execution на GPU для LLM (branch…

  • answerКак проектировать аукцион для allocation вычислительных ресурсов между агентами?

    …Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | Как обеспечить безопасность взаимодействия агентов? | --- ## Навигация (Obsidian) - Предыдущий: [[718…

  • answerЧто такое mechanism design для multi-agent systems и как применить к LLM-агентам?

    …Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | Что такое multi-agent systems на базе LLM? | | [[712…

  • answerЧто такое warp divergence в CUDA и как он влияет на attention?

    …общее [[Вики/Execution time\|время выполнения]] = сумма времени всех веток. - Снижение [[Вики/occupancy\|occupancy]] (занятости SM): пока [[Вики/Warp\|warp…

  • answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?

    …Как работает speculative execution на GPU для LLM (branch prediction)\|711]] - Индекс: [[00. Индекс разборов]]

  • answerHyena: как заменить attention на свертки, сохранив качество?

    …Как работает speculative execution на GPU для LLM (branch prediction)\|711]] | Long context: методы расширения контекста | | [[712. Что такое Cooperative…

  • wikiИндекс терминов

    …SpecAugment]] - [[Вики/Specificity|Specificity]] - [[Вики/speculative decoding|speculative decoding]] - [[Вики/speculative execution|speculative execution]] - [[Вики/speedup|speedup]] - [[Вики/Spell correction…

  • question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)

    …Как работает speculative execution на GPU для LLM (branch prediction)?** > _Ответ:_ GPU не имеет сложного branch prediction как CPU (из…