Поиск

  • wikiSelf-Speculative Decoding

    # Self-Speculative Decoding ## Определение Метод ускорения декодирования, при котором target модель использует дополнительные головы (например, Medusa) для предсказания нескольких токенов…

  • wikiFeature-Aware Speculative Decoding

    # Feature-Aware Speculative Decoding ## Определение Метод speculative decoding, использующий нейронные сети и скрытые состояния target-модели для высокоточной генерации черновика…

  • wikirejection sampling

    …Что такое Medusa (multiple heads) для speculative decoding]] - [[838. Как speculative decoding ускоряет inference (детально)|838. Как speculative decoding ускоряет…

  • wikidraft model

    # draft model ## Определение Быстрая, меньшая модель, которая генерирует черновик токенов для последующей верификации целевой (target) моделью в speculative decoding. Используется…

  • wikiacceptance rate

    # acceptance rate ## Определение Метрика эффективности speculative decoding, показывающая долю токенов, сгенерированных draft моделью, которые были приняты target моделью. Высокий acceptance…

  • wikiTree Attention

    # Tree Attention ## Определение Механизм в speculative decoding, позволяющий target-модели параллельно обрабатывать несколько ветвей кандидатных последовательностей с модифицированной маскировкой для…

  • wikitarget model

    # target model ## Определение Основная LLM, которая проверяет и принимает/отклоняет токены от draft модели в speculative decoding, или используется как…

  • wikiGreedy speculative decoding

    # Greedy speculative decoding ## Определение Вариант speculative decoding, при котором токены от draft-модели принимаются, если их argmax совпадает с argmax…

  • wikispeculative decoding

    # speculative decoding ## Определение Метод ускорения инференса LLM, при котором маленькая модель (draft) генерирует черновик, а большая модель (target) его верифицирует…

  • wikiStochastic speculative decoding

    # Stochastic speculative decoding ## Определение Вариант спекулятивного декодирования, использующий rejection sampling для точного сохранения распределения целевой модели при ускорении генерации. ## Где…

  • wikiVariational Speculative Decoding

    # Variational Speculative Decoding ## Определение Метод ускорения инференса LLM, который переформулирует обучение draft модели через вариационные методы для прямой оптимизации acceptance…

  • wikiLookahead decoding

    …Что такое Variational Speculative Decoding (VSD) и чем он революционен|160. Что такое Variational Speculative Decoding (VSD) и чем он…

  • wikiIndependent Draft

    # Independent Draft ## Определение Архитектура speculative decoding, где используется отдельная маленькая модель для генерации черновиков. Проста в реализации, но требует вдвое…

  • wikihidden representations

    # hidden representations ## Определение Внутренние векторы активаций слоёв модели, используемые в методах speculative decoding (EAGLE-3), интервенциях (ReFT) и тест-тайм…

  • wikiMemory Overhead

    # Memory Overhead ## Определение Дополнительный расход памяти, необходимый для хранения KV-кэша вспомогательной модели (draft) при speculative decoding. В Independent Draft…

  • answerКак вы деплоите speculative decoding в production?

    …Как вы деплоите speculative decoding в production? ## Краткий тезис [[Вики/Wave Decoding\|Speculative decoding]] — это техника ускорения инференса [[Вики/LLM…

  • wikiselective pruning

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[216. Как вы…

  • wikiHydra

    # Hydra ## Определение Метод speculative decoding с несколькими draft-моделями и деревом кандидатов. Обеспечивает максимальную частоту принятия токенов. ## Где встречается - [[441…

  • answerКакие trade-offs между разными архитектурами speculative decoding?

    …Архитектура Self-Speculative (Medusa) [[Вики/Self-Speculative Decoding\|Medusa]] (или [[Вики/Self-Speculative Decoding\|Self-Speculative]]) — подход, при котором [[Вики…

  • wikitokens per second

    …Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)]] - [[159. Как speculative decoding взаимодействует с KV cache|159…

  • wikiforward pass

    …Как speculative decoding взаимодействует с KV cache|159. Как speculative decoding взаимодействует с KV cache]] - [[203. Tensor parallelism vs pipeline…

  • answerКак вы измеряете эффективность speculative decoding?

    …Как вы измеряете эффективность speculative decoding? ## Краткий тезис [[Вики/Efficiency\|Эффективность]] **[[Вики/speculative decoding\|speculative]] [[Вики/decode\|decoding]]** — техники ускорения…

  • wikiTree attention mask

    # Tree attention mask ## Определение Модификация attention mask для параллельной верификации деревьев кандидатов в speculative decoding. ## Где встречается - [[164. Какие trade…

  • wikiавторегрессивное декодирование

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[212. Как работает…

  • wikiGPT-2 Medium

    # GPT-2 Medium ## Определение Версия модели GPT-2 среднего размера, применяемая в качестве target-модели в speculative decoding. ## Где встречается…

  • wikiLinear heads

    # Linear heads ## Определение Дополнительные линейные слои, добавляемые поверх языковой модели, используемые в speculative decoding (например, Medusa) для параллельного предсказания нескольких…

  • answerЧто такое Variational Speculative Decoding (VSD) и чем он революционен?

    …Что такое Variational Speculative Decoding (VSD) и чем он революционен? ## Краткий тезис Speculative Decoding|Variational Speculative Decoding (VSD) — это метод…

  • wikiwall-clock speedup

    # wall-clock speedup ## Определение Реальное ускорение времени выполнения, измеряемое для методов speculative decoding (например, EAGLE-3, Medusa-2). ## Где встречается…

  • wikiEAGLE-2

    # EAGLE-2 ## Определение Метод speculative decoding, использующий динамическое построение дерева кандидатов (tree attention) для ускорения генерации текста. ## Где встречается - [[158…

  • wikiELBO

    # ELBO ## Определение Evidence Lower Bound — вариационная нижняя граница логарифма правдоподобия, используемая в методах типа Variational Speculative Decoding для оптимизации acceptance…

  • wikiOpenWebText

    …Применяется, например, при обучении голов Medusa в speculative decoding. ## Где встречается - [[164. Какие trade-offs между разными архитектурами speculative decoding

  • wikiparallel forward pass

    # parallel forward pass ## Определение Метод инференса, при котором target-модель обрабатывает несколько токенов за один проход, например, в speculative decoding

  • wikiWikiText-2

    # WikiText-2 ## Определение Небольшой корпус текстов из Википедии, используемый для обучения и валидации моделей, например, в speculative decoding. ## Где встречается…

  • wikiMemory Overhead Ratio

    …Метрика дополнительного потребления памяти при speculative decoding. ## Где встречается - [[159. Как speculative decoding взаимодействует с KV cache|159. Как speculative

  • wikiEAGLE-3

    # EAGLE-3 ## Определение Третья версия feature-aware speculative decoding, которая использует скрытые представления target модели и top-K KL divergence…

  • wikicandidate tree

    …EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.|441. EAGLE-3 vs Medusa-2 vs Hydra сравнение…

  • wikifeature-aware draft model

    # feature-aware draft model ## Определение Модель-черновик, учитывающая признаки target-модели для предсказания следующего токена в speculative decoding. ## Где встречается…

  • wikiKV-cache reuse

    …Что такое Medusa (multiple heads) для speculative decoding|456. Что такое Medusa (multiple heads) для speculative decoding]] - [[800+ вопросов|800…

  • wikiTinyLlama

    # TinyLlama ## Определение Маленькая языковая модель с 1.1 млрд параметров, предназначенная для быстрых задач классификации, speculative decoding и fine-tuning…

  • wikispeedup

    # speedup ## Определение Фактор ускорения инференса, показывающий отношение времени выполнения без оптимизации ко времени с оптимизацией (например, speculative decoding). Типичные значения…

  • answerКак speculative decoding ускоряет inference? (детально)

    …Основная идея speculative decoding **[[Вики/speculative decoding\|Speculative decoding]] ([[Вики/speculative decoding\|спекулятивное декодирование]])** — метод, при котором маленькая [[Вики/model…

  • answerEAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?

    …сравнение speculative decoding методов? ## Краткий тезис [[Вики/Wave Decoding\|Speculative decoding]] — это техника ускорения инференса [[Вики/LLM\|LLM]] без [[Вики…

  • wikiLLM distillation

    …Как работает speculative decoding с несколькими draft моделями|212. Как работает speculative decoding с несколькими draft моделями]] - [[220. Как вы…

  • wikiTree Cache Management

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[800+ вопросов|800…

  • answerКакие есть методы ускорения тест-тайм компьютинга? (KV-cache, speculative decoding)

    Speculative decoding [[Вики/Wave Decoding\|Speculative decoding]] ([[Вики/speculative decoding\|спекулятивная декодировка]]) — метод, при котором быстрая [[Вики/draft model\|draft…

  • wikiQuasar

    # Quasar ## Определение Архитектура для ускорения инференса LLM, в которой этап верификации speculative decoding выполняется с использованием low-bit квантизации (например…

  • answerЧто такое EAGLE-3 и чем он отличается от стандартного speculative decoding?

    …Это ключевое отличие [[Вики/Feature-Aware Speculative Decoding\|EAGLE]] от классического [[Вики/speculative decoding\|speculative decoding]]. Как это работает в…

  • wikiHidden state

    # Hidden state ## Определение Внутренний вектор состояния модели (например, в SSM или трансформере), несущий сжатое представление контекста; используется в speculative decoding

  • wikiLossless

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] ## Навигация - [[00. Индекс…

  • answerКак работает speculative decoding? Как выбрать draft модель?

    …Как работает speculative decoding? Как выбрать draft модель? ## Краткий тезис [[Вики/Wave Decoding\|Speculative decoding]] — это техника ускорения инференса больших…