Поиск

answerКак работает speculative decoding? Как выбрать draft модель?
…Выбор draft модели Существует три основных подхода к выбору draft модели: ### 4.1 Independent Draft (отдельная маленькая модель) Используется предобученная…
answerЧто такое Variational Speculative Decoding (VSD) и чем он революционен?
…context = batch["context"] # Генерируем токены от draft модели (on-policy) draft_tokens, draft_logprobs = draft_model.sample(context) # Получаем логиты…
answerКакие trade-offs между разными архитектурами speculative decoding?
…Основные архитектуры различаются по способу построения draft-модели: [[Вики/Independent Draft\|Independent Draft]] (отдельная маленькая [[Вики/model\|модель]]), **[[Вики/Self…
answerКак speculative decoding ускоряет inference? (детально)
…Практические рекомендации - Выбор draft модели Она должна быть быстрой (малое время forward pass) и достаточно точной (высокий acceptance rate). Обычно…
answerКак работает speculative decoding с несколькими draft моделями?
…Цель — уменьшить количество дорогих forward-проходов [[Вики/target model\|target]] модели. **[[Вики/draft model\|Draft model]]** — лёгкая [[Вики/model\|модель…
answerКак работает speculative decoding на уровне логитов, а не токенов?
…если вероятность токена по target-модели ниже, чем по draft-модели, [[Вики/token\|токен]] может быть отклонён, и [[Вики/generation…
answerЧто такое EAGLE-3 и чем он отличается от стандартного speculative decoding?
…В контексте speculative decoding, KL(P_target || P_draft) показывает, насколько распределение draft модели отличается от распределения target модели. Стандартный…
answerКак вы деплоите speculative decoding в production?
…Выбор draft модели: Independent Draft vs Self-Speculative Существует два основных подхода к выбору draft модели: | Подход | Описание | Плюсы | Минусы…
wikiindependent draft models
# independent draft models ## Определение Альтернатива feature-aware draft моделям, где каждая draft-модель работает независимо без обмена признаками. ## Где встречается…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать speculative decoding с draft моделью
…Цель задачи Освоить технику **speculative decoding** — ускорение инференса большой языковой модели (target) с помощью маленькой быстрой модели (draft). Реализовать pipeline…
wikifeature-aware draft model
# feature-aware draft model ## Определение Модель-черновик, учитывающая признаки target-модели для предсказания следующего токена в speculative decoding. ## Где встречается…
answerКак speculative decoding взаимодействует с KV cache?
…При использовании SD каждый агент может иметь свой draft-модель, но KV cache target-модели может быть общим, если draft…
answerКакие есть методы ускорения тест-тайм компьютинга? (KV-cache, speculative decoding)
…Зависит от качества draft-модели и степени совпадения распределений. **Пример реализации (псевдокод):** ```python def speculative_decode(draft_model, target_model…
answerЧто такое Medusa (multiple heads) для speculative decoding?
…Однако [[Вики/training\|обучение]] и поддержка отдельной draft-модели требуют дополнительных ресурсов. --- ## 2. Проблема отдельной draft-модели Основные недостатки классического…
answerEAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?
…и [[Вики/Hydra\|Hydra]] — три современных подхода, различающиеся архитектурой draft-модели, использованием скрытых представлений и стратегией построения дерева кандидатов. [[Вики…
answerКак вы измеряете эффективность speculative decoding?
…Формула ``` MOR = (KV_cache_draft + KV_cache_target + overhead) / KV_cache_baseline ``` - `KV_cache_draft` — [[Вики/caching\|кэш]] draft-модели…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить wave decoding для коротких ответов
…Исходные данные | Что нужно | Откуда взять | |-----------|--------------| | Предобученные модели (draft + target) | Hugging Face: `distilgpt2` (draft), `gpt2` (target) | | Датасет коротких запросов (10…
wikiFeature-Aware Speculative Decoding
# Feature-Aware Speculative Decoding ## Определение Метод speculative decoding, использующий нейронные сети и скрытые состояния target-модели для высокоточной генерации черновика…
wikiSelf-Speculative Decoding
…например, Medusa) для предсказания нескольких токенов параллельно без отдельной draft-модели. ## Где встречается - [[157. Какие есть методы ускорения тест-тайм…
wikiMemory Overhead
# Memory Overhead ## Определение Дополнительный расход памяти, необходимый для хранения KV-кэша вспомогательной модели (draft) при speculative decoding. В Independent Draft…
wikiTree Attention
# Tree Attention ## Определение Механизм в speculative decoding, позволяющий target-модели параллельно обрабатывать несколько ветвей кандидатных последовательностей с модифицированной маскировкой для…
wikidynamic tree construction
# dynamic tree construction ## Определение Метод, используемый в EAGLE-2 для улучшения качества draft-модели путём динамического построения дерева гипотез. ## Где…
wikiquantized target
…В speculative decoding такая модель может выступать в роли draft-модели для ускорения генерации. ## Где встречается - [[800+ вопросов|800+ вопросов…
wikiGreedy speculative decoding
# Greedy speculative decoding ## Определение Вариант speculative decoding, при котором токены от draft-модели принимаются, если их argmax совпадает с argmax…
wikihidden representations
# hidden representations ## Определение Внутренние векторы активаций слоёв модели, используемые в методах speculative decoding (EAGLE-3), интервенциях (ReFT) и тест-тайм…
answerКак вы деплоите LLM с requirement <100ms latency при throughput 1000 req/s? Архитектура.
…Если [[Вики/draft model\|draft-модель]] угадала, мы получаем K токенов за один [[Вики/backpropagation\|forward]] большой модели. Типичное [[Вики…
wikiLLM distillation
# LLM distillation ## Определение Техника сжатия модели, где компактная модель-студент обучается имитировать поведение большой модели-учителя, минимизируя KL-дивергенцию. Позволяет…
wikiEAGLE-1
# EAGLE-1 ## Определение Первая версия метода EAGLE, использующая feature-aware draft-модель с hidden states целевой модели для ускорения инференса…
wikiVariational Speculative Decoding
# Variational Speculative Decoding ## Определение Метод ускорения инференса LLM, который переформулирует обучение draft модели через вариационные методы для прямой оптимизации acceptance…
wikiMemory Overhead Ratio
# Memory Overhead Ratio ## Определение Отношение суммарного объёма KV-кэша (target + draft) к кэшу только target-модели. Метрика дополнительного потребления памяти…
wikiselective pruning
…Почему MoE (Mixture of Experts) быстрее dense модели при инференсе]] - [[440. Как работает speculative decoding Как выбрать draft модель|440…
answerКак вы делаете agent with iterative refinement (улучшение ответа через обратную связь)?
…return draft draft = improve(draft, crit['issues'], query) return draft # последняя версия ``` Число итераций и порог — гиперпараметры. Слишком низкий порог…
wikitop-k KL divergence loss
# top-k KL divergence loss ## Определение Функция потерь для обучения draft модели, минимизирующая расхождение только для top-k наиболее вероятных…
wikitarget model
# target model ## Определение Основная LLM, которая проверяет и принимает/отклоняет токены от draft модели в speculative decoding, или используется как…
wikispeculative decoding
# speculative decoding ## Определение Метод ускорения инференса LLM, при котором маленькая модель (draft) генерирует черновик, а большая модель (target) его верифицирует…
wikiREINFORCE
…используемый для дискретных токенов, например в VSD для обновления draft-модели. ## Где встречается - [[160. Что такое Variational Speculative Decoding (VSD…
wiki8-bit quantization
# 8-bit quantization ## Определение Техника сжатия модели путём представления весов и/или KV-кэша в 8-битном целочисленном формате, что…
answerКак вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
…Оптимизация TPOT (Decode) ### 4.1 Speculative Decoding Генерируем несколько токенов «черновиком» ([[Вики/draft model\|draft model]]) быстро, затем проверяем их…
wikiавторегрессивное декодирование
…Как работает speculative decoding с несколькими draft моделями|212. Как работает speculative decoding с несколькими draft моделями]] - [[215. Что такое…
wikiLSTM
…памяти, способная эффективно моделировать последовательности и долгосрочные зависимости. Применяется в задачах обработки последовательностей, включая использование в draft-моделях. ## Где встречается…
answerКак вы выбираете между online и batch инференсом для LLM?
…Это ускоряет генерацию в 2–3 раза без [[Вики/Loss\|потери]] качества. **Термин «[[Вики/draft model\|draft model]]»** — малая [[Вики…
wikithroughput
…Как вы проектируете canary deployment для LLM модели|382. Как вы проектируете canary deployment для LLM модели]] - [[388. Что такое…
answerКак вы делаете агента, который может «просить помощи» у другого агента или человека?
…draft model\|черновик]] ответа: даже если [[Вики/agent\|агент]] неуверен, он может дать набросок 4. **[[Вики/метаданные\|Метаданные]]**: версия модели…
wikibatch size
…Как работает speculative decoding Как выбрать draft модель|440. Как работает speculative decoding Как выбрать draft модель]] - [[442. Что такое…
answerВ чем разница между prefill и decode stage в LLM инференсе?
…4 раза | | [[Вики/Wave Decoding\|Speculative decoding]] | Использование маленькой "draft" модели для генерации нескольких токентов, которые затем проверяются большой моделью…
wikiDistilGPT2
# DistilGPT2 ## Определение Уменьшенная версия GPT-2, используемая как draft-модель в speculative decoding или для экспериментов с генерацией текста. ## Где…
answerЧто такое Wave Decoding и чем отличается от стандартного авторегрессивного?
…K и wave_len динамически меняются в зависимости от уверенности модели (например, если [[Вики/probability distribution\|распределение]] острое — используем меньше…
answerКак тест-тайм компьютинг меняет MLOps?
…В отличие от традиционного однопроходного инференса, TTC позволяет модели «думать дольше» над трудными вопросами. Примеры техник [[Вики/Test-Time Compute…
answerЧто такое Guided Decoding и как оно связано с JSON schema?
…Определить Pydantic-модели для каждого инструмента (SearchTool, CalculatorTool, WeatherTool). 2. Загрузить небольшую [[Вики/GPT-4o\|LLM]] (например, `[[Вики/Qwen2.5…
answerКак работает model stealing attack (экстракция модели через API)?
…Как работает model stealing attack (экстракция модели через API)? ## Краткий тезис [[Вики/model stealing attack\|Model stealing attack]] ([[Вики/model…