Поиск
- wikiSelf-Speculative Decoding
# Self-Speculative Decoding ## Определение Метод ускорения декодирования, при котором target модель использует дополнительные головы (например, Medusa) для предсказания нескольких токенов…
- wikiFeature-Aware Speculative Decoding
# Feature-Aware Speculative Decoding ## Определение Метод speculative decoding, использующий нейронные сети и скрытые состояния target-модели для высокоточной генерации черновика…
- wikirejection sampling
…Что такое Medusa (multiple heads) для speculative decoding]] - [[838. Как speculative decoding ускоряет inference (детально)|838. Как speculative decoding ускоряет…
- wikidraft model
# draft model ## Определение Быстрая, меньшая модель, которая генерирует черновик токенов для последующей верификации целевой (target) моделью в speculative decoding. Используется…
- wikiacceptance rate
# acceptance rate ## Определение Метрика эффективности speculative decoding, показывающая долю токенов, сгенерированных draft моделью, которые были приняты target моделью. Высокий acceptance…
- wikiTree Attention
# Tree Attention ## Определение Механизм в speculative decoding, позволяющий target-модели параллельно обрабатывать несколько ветвей кандидатных последовательностей с модифицированной маскировкой для…
- wikitarget model
# target model ## Определение Основная LLM, которая проверяет и принимает/отклоняет токены от draft модели в speculative decoding, или используется как…
- wikiGreedy speculative decoding
# Greedy speculative decoding ## Определение Вариант speculative decoding, при котором токены от draft-модели принимаются, если их argmax совпадает с argmax…
- wikispeculative decoding
# speculative decoding ## Определение Метод ускорения инференса LLM, при котором маленькая модель (draft) генерирует черновик, а большая модель (target) его верифицирует…
- wikiStochastic speculative decoding
# Stochastic speculative decoding ## Определение Вариант спекулятивного декодирования, использующий rejection sampling для точного сохранения распределения целевой модели при ускорении генерации. ## Где…
- wikiVariational Speculative Decoding
# Variational Speculative Decoding ## Определение Метод ускорения инференса LLM, который переформулирует обучение draft модели через вариационные методы для прямой оптимизации acceptance…
- wikiLookahead decoding
…Что такое Variational Speculative Decoding (VSD) и чем он революционен|160. Что такое Variational Speculative Decoding (VSD) и чем он…
- wikiIndependent Draft
# Independent Draft ## Определение Архитектура speculative decoding, где используется отдельная маленькая модель для генерации черновиков. Проста в реализации, но требует вдвое…
- wikihidden representations
# hidden representations ## Определение Внутренние векторы активаций слоёв модели, используемые в методах speculative decoding (EAGLE-3), интервенциях (ReFT) и тест-тайм…
- wikiMemory Overhead
# Memory Overhead ## Определение Дополнительный расход памяти, необходимый для хранения KV-кэша вспомогательной модели (draft) при speculative decoding. В Independent Draft…
- answerКак вы деплоите speculative decoding в production?
…Как вы деплоите speculative decoding в production? ## Краткий тезис [[Вики/Wave Decoding\|Speculative decoding]] — это техника ускорения инференса [[Вики/LLM…
- wikiselective pruning
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[216. Как вы…
- wikiHydra
# Hydra ## Определение Метод speculative decoding с несколькими draft-моделями и деревом кандидатов. Обеспечивает максимальную частоту принятия токенов. ## Где встречается - [[441…
- answerКакие trade-offs между разными архитектурами speculative decoding?
…Архитектура Self-Speculative (Medusa) [[Вики/Self-Speculative Decoding\|Medusa]] (или [[Вики/Self-Speculative Decoding\|Self-Speculative]]) — подход, при котором [[Вики…
- wikitokens per second
…Какие есть методы ускорения тест-тайм компьютинга (KV-cache, speculative decoding)]] - [[159. Как speculative decoding взаимодействует с KV cache|159…
- wikiforward pass
…Как speculative decoding взаимодействует с KV cache|159. Как speculative decoding взаимодействует с KV cache]] - [[203. Tensor parallelism vs pipeline…
- answerКак вы измеряете эффективность speculative decoding?
…Как вы измеряете эффективность speculative decoding? ## Краткий тезис [[Вики/Efficiency\|Эффективность]] **[[Вики/speculative decoding\|speculative]] [[Вики/decode\|decoding]]** — техники ускорения…
- wikiTree attention mask
# Tree attention mask ## Определение Модификация attention mask для параллельной верификации деревьев кандидатов в speculative decoding. ## Где встречается - [[164. Какие trade…
- wikiавторегрессивное декодирование
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[212. Как работает…
- wikiGPT-2 Medium
# GPT-2 Medium ## Определение Версия модели GPT-2 среднего размера, применяемая в качестве target-модели в speculative decoding. ## Где встречается…
- wikiLinear heads
# Linear heads ## Определение Дополнительные линейные слои, добавляемые поверх языковой модели, используемые в speculative decoding (например, Medusa) для параллельного предсказания нескольких…
- answerЧто такое Variational Speculative Decoding (VSD) и чем он революционен?
…Что такое Variational Speculative Decoding (VSD) и чем он революционен? ## Краткий тезис Speculative Decoding|Variational Speculative Decoding (VSD) — это метод…
- wikiwall-clock speedup
# wall-clock speedup ## Определение Реальное ускорение времени выполнения, измеряемое для методов speculative decoding (например, EAGLE-3, Medusa-2). ## Где встречается…
- wikiEAGLE-2
# EAGLE-2 ## Определение Метод speculative decoding, использующий динамическое построение дерева кандидатов (tree attention) для ускорения генерации текста. ## Где встречается - [[158…
- wikiELBO
# ELBO ## Определение Evidence Lower Bound — вариационная нижняя граница логарифма правдоподобия, используемая в методах типа Variational Speculative Decoding для оптимизации acceptance…
- wikiOpenWebText
…Применяется, например, при обучении голов Medusa в speculative decoding. ## Где встречается - [[164. Какие trade-offs между разными архитектурами speculative decoding…
- wikiparallel forward pass
# parallel forward pass ## Определение Метод инференса, при котором target-модель обрабатывает несколько токенов за один проход, например, в speculative decoding…
- wikiWikiText-2
# WikiText-2 ## Определение Небольшой корпус текстов из Википедии, используемый для обучения и валидации моделей, например, в speculative decoding. ## Где встречается…
- wikiMemory Overhead Ratio
…Метрика дополнительного потребления памяти при speculative decoding. ## Где встречается - [[159. Как speculative decoding взаимодействует с KV cache|159. Как speculative…
- wikiEAGLE-3
# EAGLE-3 ## Определение Третья версия feature-aware speculative decoding, которая использует скрытые представления target модели и top-K KL divergence…
- wikicandidate tree
…EAGLE-3 vs Medusa-2 vs Hydra сравнение speculative decoding методов.|441. EAGLE-3 vs Medusa-2 vs Hydra сравнение…
- wikifeature-aware draft model
# feature-aware draft model ## Определение Модель-черновик, учитывающая признаки target-модели для предсказания следующего токена в speculative decoding. ## Где встречается…
- wikiKV-cache reuse
…Что такое Medusa (multiple heads) для speculative decoding|456. Что такое Medusa (multiple heads) для speculative decoding]] - [[800+ вопросов|800…
- wikiTinyLlama
# TinyLlama ## Определение Маленькая языковая модель с 1.1 млрд параметров, предназначенная для быстрых задач классификации, speculative decoding и fine-tuning…
- wikispeedup
# speedup ## Определение Фактор ускорения инференса, показывающий отношение времени выполнения без оптимизации ко времени с оптимизацией (например, speculative decoding). Типичные значения…
- answerКак speculative decoding ускоряет inference? (детально)
…Основная идея speculative decoding **[[Вики/speculative decoding\|Speculative decoding]] ([[Вики/speculative decoding\|спекулятивное декодирование]])** — метод, при котором маленькая [[Вики/model…
- answerEAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?
…сравнение speculative decoding методов? ## Краткий тезис [[Вики/Wave Decoding\|Speculative decoding]] — это техника ускорения инференса [[Вики/LLM\|LLM]] без [[Вики…
- wikiLLM distillation
…Как работает speculative decoding с несколькими draft моделями|212. Как работает speculative decoding с несколькими draft моделями]] - [[220. Как вы…
- wikiTree Cache Management
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[800+ вопросов|800…
- answerКакие есть методы ускорения тест-тайм компьютинга? (KV-cache, speculative decoding)
…Speculative decoding [[Вики/Wave Decoding\|Speculative decoding]] ([[Вики/speculative decoding\|спекулятивная декодировка]]) — метод, при котором быстрая [[Вики/draft model\|draft…
- wikiQuasar
# Quasar ## Определение Архитектура для ускорения инференса LLM, в которой этап верификации speculative decoding выполняется с использованием low-bit квантизации (например…
- answerЧто такое EAGLE-3 и чем он отличается от стандартного speculative decoding?
…Это ключевое отличие [[Вики/Feature-Aware Speculative Decoding\|EAGLE]] от классического [[Вики/speculative decoding\|speculative decoding]]. Как это работает в…
- wikiHidden state
# Hidden state ## Определение Внутренний вектор состояния модели (например, в SSM или трансформере), несущий сжатое представление контекста; используется в speculative decoding…
- wikiLossless
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] ## Навигация - [[00. Индекс…
- answerКак работает speculative decoding? Как выбрать draft модель?
…Как работает speculative decoding? Как выбрать draft модель? ## Краткий тезис [[Вики/Wave Decoding\|Speculative decoding]] — это техника ускорения инференса больших…