Поиск

  • answerКак работает speculative decoding? Как выбрать draft модель?

    …Выбор draft модели Существует три основных подхода к выбору draft модели: ### 4.1 Independent Draft (отдельная маленькая модель) Используется предобученная…

  • answerЧто такое Variational Speculative Decoding (VSD) и чем он революционен?

    …context = batch["context"] # Генерируем токены от draft модели (on-policy) draft_tokens, draft_logprobs = draft_model.sample(context) # Получаем логиты…

  • answerКакие trade-offs между разными архитектурами speculative decoding?

    …Основные архитектуры различаются по способу построения draft-модели: [[Вики/Independent Draft\|Independent Draft]] (отдельная маленькая [[Вики/model\|модель]]), **[[Вики/Self…

  • answerКак speculative decoding ускоряет inference? (детально)

    …Практические рекомендации - Выбор draft модели Она должна быть быстрой (малое время forward pass) и достаточно точной (высокий acceptance rate). Обычно…

  • answerКак работает speculative decoding с несколькими draft моделями?

    …Цель — уменьшить количество дорогих forward-проходов [[Вики/target model\|target]] модели. **[[Вики/draft model\|Draft model]]** — лёгкая [[Вики/model\|модель…

  • answerКак работает speculative decoding на уровне логитов, а не токенов?

    …если вероятность токена по target-модели ниже, чем по draft-модели, [[Вики/token\|токен]] может быть отклонён, и [[Вики/generation…

  • answerЧто такое EAGLE-3 и чем он отличается от стандартного speculative decoding?

    …В контексте speculative decoding, KL(P_target || P_draft) показывает, насколько распределение draft модели отличается от распределения target модели. Стандартный…

  • answerКак вы деплоите speculative decoding в production?

    …Выбор draft модели: Independent Draft vs Self-Speculative Существует два основных подхода к выбору draft модели: | Подход | Описание | Плюсы | Минусы…

  • wikiindependent draft models

    # independent draft models ## Определение Альтернатива feature-aware draft моделям, где каждая draft-модель работает независимо без обмена признаками. ## Где встречается…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать speculative decoding с draft моделью

    …Цель задачи Освоить технику **speculative decoding** — ускорение инференса большой языковой модели (target) с помощью маленькой быстрой модели (draft). Реализовать pipeline…

  • wikifeature-aware draft model

    # feature-aware draft model ## Определение Модель-черновик, учитывающая признаки target-модели для предсказания следующего токена в speculative decoding. ## Где встречается…

  • answerКак speculative decoding взаимодействует с KV cache?

    …При использовании SD каждый агент может иметь свой draft-модель, но KV cache target-модели может быть общим, если draft

  • answerКакие есть методы ускорения тест-тайм компьютинга? (KV-cache, speculative decoding)

    …Зависит от качества draft-модели и степени совпадения распределений. **Пример реализации (псевдокод):** ```python def speculative_decode(draft_model, target_model…

  • answerЧто такое Medusa (multiple heads) для speculative decoding?

    …Однако [[Вики/training\|обучение]] и поддержка отдельной draft-модели требуют дополнительных ресурсов. --- ## 2. Проблема отдельной draft-модели Основные недостатки классического…

  • answerEAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?

    …и [[Вики/Hydra\|Hydra]] — три современных подхода, различающиеся архитектурой draft-модели, использованием скрытых представлений и стратегией построения дерева кандидатов. [[Вики…

  • answerКак вы измеряете эффективность speculative decoding?

    …Формула ``` MOR = (KV_cache_draft + KV_cache_target + overhead) / KV_cache_baseline ``` - `KV_cache_draft` — [[Вики/caching\|кэш]] draft-модели

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить wave decoding для коротких ответов

    …Исходные данные | Что нужно | Откуда взять | |-----------|--------------| | Предобученные модели (draft + target) | Hugging Face: `distilgpt2` (draft), `gpt2` (target) | | Датасет коротких запросов (10…

  • wikiFeature-Aware Speculative Decoding

    # Feature-Aware Speculative Decoding ## Определение Метод speculative decoding, использующий нейронные сети и скрытые состояния target-модели для высокоточной генерации черновика…

  • wikiSelf-Speculative Decoding

    …например, Medusa) для предсказания нескольких токенов параллельно без отдельной draft-модели. ## Где встречается - [[157. Какие есть методы ускорения тест-тайм…

  • wikiMemory Overhead

    # Memory Overhead ## Определение Дополнительный расход памяти, необходимый для хранения KV-кэша вспомогательной модели (draft) при speculative decoding. В Independent Draft

  • wikiTree Attention

    # Tree Attention ## Определение Механизм в speculative decoding, позволяющий target-модели параллельно обрабатывать несколько ветвей кандидатных последовательностей с модифицированной маскировкой для…

  • wikidynamic tree construction

    # dynamic tree construction ## Определение Метод, используемый в EAGLE-2 для улучшения качества draft-модели путём динамического построения дерева гипотез. ## Где…

  • wikiquantized target

    …В speculative decoding такая модель может выступать в роли draft-модели для ускорения генерации. ## Где встречается - [[800+ вопросов|800+ вопросов…

  • wikiGreedy speculative decoding

    # Greedy speculative decoding ## Определение Вариант speculative decoding, при котором токены от draft-модели принимаются, если их argmax совпадает с argmax…

  • wikihidden representations

    # hidden representations ## Определение Внутренние векторы активаций слоёв модели, используемые в методах speculative decoding (EAGLE-3), интервенциях (ReFT) и тест-тайм…

  • answerКак вы деплоите LLM с requirement <100ms latency при throughput 1000 req/s? Архитектура.

    …Если [[Вики/draft model\|draft-модель]] угадала, мы получаем K токенов за один [[Вики/backpropagation\|forward]] большой модели. Типичное [[Вики…

  • wikiLLM distillation

    # LLM distillation ## Определение Техника сжатия модели, где компактная модель-студент обучается имитировать поведение большой модели-учителя, минимизируя KL-дивергенцию. Позволяет…

  • wikiEAGLE-1

    # EAGLE-1 ## Определение Первая версия метода EAGLE, использующая feature-aware draft-модель с hidden states целевой модели для ускорения инференса…

  • wikiVariational Speculative Decoding

    # Variational Speculative Decoding ## Определение Метод ускорения инференса LLM, который переформулирует обучение draft модели через вариационные методы для прямой оптимизации acceptance…

  • wikiMemory Overhead Ratio

    # Memory Overhead Ratio ## Определение Отношение суммарного объёма KV-кэша (target + draft) к кэшу только target-модели. Метрика дополнительного потребления памяти…

  • wikiselective pruning

    …Почему MoE (Mixture of Experts) быстрее dense модели при инференсе]] - [[440. Как работает speculative decoding Как выбрать draft модель|440…

  • answerКак вы делаете agent with iterative refinement (улучшение ответа через обратную связь)?

    …return draft draft = improve(draft, crit['issues'], query) return draft # последняя версия ``` Число итераций и порог — гиперпараметры. Слишком низкий порог…

  • wikitop-k KL divergence loss

    # top-k KL divergence loss ## Определение Функция потерь для обучения draft модели, минимизирующая расхождение только для top-k наиболее вероятных…

  • wikitarget model

    # target model ## Определение Основная LLM, которая проверяет и принимает/отклоняет токены от draft модели в speculative decoding, или используется как…

  • wikispeculative decoding

    # speculative decoding ## Определение Метод ускорения инференса LLM, при котором маленькая модель (draft) генерирует черновик, а большая модель (target) его верифицирует…

  • wikiREINFORCE

    …используемый для дискретных токенов, например в VSD для обновления draft-модели. ## Где встречается - [[160. Что такое Variational Speculative Decoding (VSD…

  • wiki8-bit quantization

    # 8-bit quantization ## Определение Техника сжатия модели путём представления весов и/или KV-кэша в 8-битном целочисленном формате, что…

  • answerКак вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)?

    …Оптимизация TPOT (Decode) ### 4.1 Speculative Decoding Генерируем несколько токенов «черновиком» ([[Вики/draft model\|draft model]]) быстро, затем проверяем их…

  • wikiавторегрессивное декодирование

    …Как работает speculative decoding с несколькими draft моделями|212. Как работает speculative decoding с несколькими draft моделями]] - [[215. Что такое…

  • wikiLSTM

    …памяти, способная эффективно моделировать последовательности и долгосрочные зависимости. Применяется в задачах обработки последовательностей, включая использование в draft-моделях. ## Где встречается…

  • answerКак вы выбираете между online и batch инференсом для LLM?

    …Это ускоряет генерацию в 2–3 раза без [[Вики/Loss\|потери]] качества. **Термин «[[Вики/draft model\|draft model]]»** — малая [[Вики…

  • wikithroughput

    …Как вы проектируете canary deployment для LLM модели|382. Как вы проектируете canary deployment для LLM модели]] - [[388. Что такое…

  • answerКак вы делаете агента, который может «просить помощи» у другого агента или человека?

    draft model\|черновик]] ответа: даже если [[Вики/agent\|агент]] неуверен, он может дать набросок 4. **[[Вики/метаданные\|Метаданные]]**: версия модели

  • wikibatch size

    …Как работает speculative decoding Как выбрать draft модель|440. Как работает speculative decoding Как выбрать draft модель]] - [[442. Что такое…

  • answerВ чем разница между prefill и decode stage в LLM инференсе?

    …4 раза | | [[Вики/Wave Decoding\|Speculative decoding]] | Использование маленькой "draft" модели для генерации нескольких токентов, которые затем проверяются большой моделью…

  • wikiDistilGPT2

    # DistilGPT2 ## Определение Уменьшенная версия GPT-2, используемая как draft-модель в speculative decoding или для экспериментов с генерацией текста. ## Где…

  • answerЧто такое Wave Decoding и чем отличается от стандартного авторегрессивного?

    …K и wave_len динамически меняются в зависимости от уверенности модели (например, если [[Вики/probability distribution\|распределение]] острое — используем меньше…

  • answerКак тест-тайм компьютинг меняет MLOps?

    …В отличие от традиционного однопроходного инференса, TTC позволяет модели «думать дольше» над трудными вопросами. Примеры техник [[Вики/Test-Time Compute…

  • answerЧто такое Guided Decoding и как оно связано с JSON schema?

    …Определить Pydantic-модели для каждого инструмента (SearchTool, CalculatorTool, WeatherTool). 2. Загрузить небольшую [[Вики/GPT-4o\|LLM]] (например, `[[Вики/Qwen2.5…

  • answerКак работает model stealing attack (экстракция модели через API)?

    …Как работает model stealing attack (экстракция модели через API)? ## Краткий тезис [[Вики/model stealing attack\|Model stealing attack]] ([[Вики/model…