Поиск

wikiнеавторегрессивное декодирование
# неавторегрессивное декодирование ## Определение Метод генерации, при котором несколько токенов или блоков токенов генерируются параллельно за один forward pass, что увеличивает…
wikitree-based decoding
# tree-based decoding ## Определение Вариант speculative decoding с несколькими draft моделями, строящими дерево кандидатов для повышения acceptance rate. ## Где встречается…
wikiавторегрессивное декодирование
# авторегрессивное декодирование ## Определение Стандартный метод генерации текста в LLM, при котором токены вырабатываются последовательно, каждый следующий зависит от предыдущих. Это…
answerЧто такое Wave Decoding и чем отличается от стандартного авторегрессивного?
…авторегрессивное декодирование и Wave Decoding [[Вики/авторегрессивное декодирование\|Авторегрессивное декодирование]] ([[Вики/Autoregressive\|autoregressive]] [[Вики/decode\|decoding]]) — стандартный способ генерации текста…
answerЧто такое Wave Decoding и чем отличается от стандартного авторегрессивного?
…Авторегрессивное декодирование (стандартный подход) [[Вики/авторегрессивное декодирование\|Авторегрессивное декодирование]] — это основной способ генерации текста в [[Вики/LLM\|LLM]]. [[Вики/model…
wikiContrastive decoding
# Contrastive decoding ## Определение Метод декодирования, который сравнивает распределения вероятностей с контекстом и без для выявления галлюцинаций, а также штрафует повторяющиеся…
wikiWave Decoding
# Wave Decoding ## Определение Неавторегрессивный метод генерации текста, генерирующий несколько токенов параллельно в разных ветках и выбирающий лучшую последовательность на основе…
wikiSelf-Speculative Decoding
# Self-Speculative Decoding ## Определение Метод ускорения декодирования, при котором target модель использует дополнительные головы (например, Medusa) для предсказания нескольких токенов…
wikiLLM inference
# LLM inference ## Определение Процесс генерации ответа языковой моделью на основе входного промпта; включает токенизацию, прямой проход по сети и декодирование…
wikiensemble-based decoding
# ensemble-based decoding ## Определение Метод декодирования, при котором несколько draft моделей или голов работают совместно для увеличения разнообразия кандидатов и…
wikidecode
# decode ## Определение Фаза генерации токенов после prefill, при которой токены генерируются по одному, влияя на TPOT и используемая в непрерывном…
answerВ чем разница между prefill и decode stage в LLM инференсе?
…Decode stage — последовательная генерация ответа **[[Вики/decode\|Decode]]** (также [[Вики/авторегрессивное декодирование\|decoding phase]] или [[Вики/авторегрессивное декодирование\|generation phase…
wikiConsensus
# Consensus ## Определение Метод агрегации ответов от нескольких моделей или аннотаторов с выбором наиболее частого варианта для повышения качества. ## Где встречается…
wikigreedy traversal
# greedy traversal ## Определение Стратегия выбора токена с максимальной вероятностью на каждом шаге (эквивалент temperature=0). В HNSW — метод жадного перемещения…
answerКак работает greedy decoding vs beam search vs sampling?
…Декодирование в LLM [[Вики/decode\|Декодирование]] ([[Вики/decode\|decoding]]) — это процесс генерации последовательности токенов (слов, подслов) из вероятностного распределения, которое…
wikispeculative decoding
# speculative decoding ## Определение Метод ускорения инференса LLM, при котором маленькая модель (draft) генерирует черновик, а большая модель (target) его верифицирует…
wiki8-bit quantization
…целочисленном формате, что уменьшает требования к памяти и ускоряет декодирование при работе с длинным контекстом. ## Где встречается - [[77. Как вы…
answerПочему decode stage плохо batchится?
…Ключевые термины - [[Вики/авторегрессивное декодирование\|Decode stage]]: этап инференса [[Вики/GPT-4o\|LLM]], когда [[Вики/model\|модель]] генерирует [[Вики/cost…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить search-based inference (AlphaSearch)
…Цель — улучшить качество рассуждений модели на сложных задачах (математика, логика) по сравнению с обычным greedy-декодированием или best-of-N…
answerЧто такое jailbreak taxonomy (полная классификация)?
…Основная защита | |--------|--------|----------------------|-----------------| | OOD encoding | base64/rot13 | Средняя | Распознавание кодировок, декодирование перед обработкой | | Code injection | Python/SQL | Высокая (если есть выполнение…
answerКак speculative decoding ускоряет inference? (детально)
…Как speculative decoding ускоряет inference? (детально) ## Краткий тезис Speculative decoding (decoding|спекулятивное декодирование) — это метод ускорения авторегрессивной генерации больших языковых…
answerЧто такое Chain-of-Thought без токенов (latent CoT) и как это реализовано?
…hidden = model.latent_reasoning_layer(hidden) # Декодирование logits = model.lm_head(hidden[:, -1, :]) return logits ``` --- ## 5. ∇-Reasoner — градиентный подход [[Вики…
answerЧто такое repetition penalty и как он работает?
…Логит и декодирование [[Вики/logits\|Логит]] ([[Вики/logits\|logit]]) — это сырой выход последнего слоя нейросети перед [[Вики/Softmax\|softmax]]. Он…
answerЧто такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста?
…То есть оптимизация идёт в soft-представлениях, а финальный ответ получается либо жадным декодированием из оптимизированных эмбеддингов, либо с помощью…
answerКак работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)?
…почему нужен градиентный спуск на инференсе [[Вики/авторегрессивное декодирование\|Стандартное авторегрессивное декодирование]] имеет фундаментальный недостаток: решение принимается одношагово, без [[Вики…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать verifier-guided decoding
…же [[Вики/accuracy\|accuracy]]) по сравнению с обычным жадным декодированием. ## 2. Исходные данные | Что нужно | Откуда взять | |-----------|--------------| | Базовая LLM для…
answerКак работает Whisper (architecture, tokenization, training) для ASR?
…Инференс (Decoding) - [[Вики/авторегрессивное декодирование\|Autoregressive decoding]] на каждом шаге decoder предсказывает следующий токен, используя предыдущие. - **Beam search** (ширина луча…
answerКак вы дебажите низкую GPU utilization (например, 40% на A100)?
…держать модель в GPU, не выгружать. ### 2.5 CPU bottleneck Preprocessing (токенизация, эмбеддинги) или postprocessing (декодирование) выполняются на CPU и…
answerEAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?
…Speculative Decoding Speculative decoding (decoding|спекулятивное декодирование) — метод ускорения генерации LLM, при котором маленькая и быстрая draft model (модель-черновик…
answerКак работают CUDA graphs и когда их использовать?
…GPT-4o\|LLM]] [[Вики/generation\|генерация]] с [[Вики/авторегрессивное декодирование\|autoregressive decoding]] — длина растет с каждым шагом. При каждом новом…
answerЧто такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?
…аномалий]] в эмбеддингах, [[Вики/normalization\|предобработка]] запроса ([[Вики/decode\|декодирование]], [[Вики/normalization\|нормализация]]). --- ## 3. Категория 2: Refusal Suppression (подавление отказа…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать deliberate decoding
…В отличие от стандартного [[Вики/авторегрессивное декодирование\|auto-regressive decoding]], [[Вики/model\|модель]] сначала генерирует план (например, ключевые шаги, структуру…
answerКак вы обрабатываете PII в данных для RAG (GDPR, 152-ФЗ)?
…mTLS]]). - [[Вики/логирование\|Журналирование]] всех запросов на [[Вики/decode\|декодирование]]. --- ## 6. Контроль доступа и шифрование для индексированных данных Даже обезличенные…
answerКак вы защищаете LLM от градиентных атак (white-box jailbreak)?
…удаление повторяющихся символов, замена необычных Unicode-символов, декодирование эмодзи → текст. - Удаление длинных повторяющихся паттернов: GCG-суффиксы часто содержат повторяющиеся токены…
answerКак работает Product Quantization (PQ) для сжатия векторов?
…M целых чисел (например, [[Вики/uint8\|uint8]]). ### 3.4 Декодирование (восстановление) Приближённый [[Вики/embedding\|вектор]] получается конкатенацией центроидов по их…
answerЧто такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать?
…но может быть общим для нескольких пользователей ([[Вики/неавторегрессивное декодирование\|NAT]]). - [[Вики/API key\|API key]] гибче: можно задавать разные…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RWKV для инференса
…Базовая модель для сравнения | | Токенизация | `tokenizers` (оба семейства) | Кодирование/декодирование текста | | Бенчмаркинг | `time.perf_counter`, `torch.cuda.Event` (CPU) | Точное…
answerЧто такое Variational Speculative Decoding (VSD) и чем он революционен?
…Speculative Decoding (спекулятивное декодирование) **[[Вики/speculative decoding\|Speculative]] [[Вики/decode\|Decoding]]** — это техника ускорения генерации текста в [[Вики/LLM\|LLM…
answerКак вы обеспечиваете низкую задержку (<500ms) для LLM?
…выше, а качество приемлемо. ### 7.3 Speculative Decoding (спекулятивное декодирование) [[Вики/Wave Decoding\|Speculative decoding]] — приём, когда маленькая «драфт-модель…
answerКак вы деплоите speculative decoding в production?
…Speculative Decoding (спекулятивное декодирование) [[Вики/Wave Decoding\|Speculative decoding]] — метод ускорения генерации текста, при котором маленькая и [[Вики/Lightweight model…
answerКак вы деплоите LLM с requirement <100ms latency при throughput 1000 req/s? Архитектура.
…continuous batching\|адаптивный батчинг]] и [[Вики/speculative decoding\|спекулятивное декодирование]] с маленькой draft-моделью. [[Вики/Redis Cluster\|Redis]] выступает распределённым…
answerКак вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)?
…Решение: [[Вики/normalization\|предобработка]] ([[Вики/decode\|декодирование]]) или [[Вики/training\|обучение]] детектора на закодированных данных. - [[Вики/Adversarial attacks\|Adversarial attacks…
answerКакие есть методы ускорения тест-тайм компьютинга? (KV-cache, speculative decoding)
…Сравните время генерации 50 токенов с обычным декодированием (без speculative) и со speculative decoding (K=5). 4. Проверьте, что сгенерированные…
answerКак вы оцениваете cost-effectiveness LLM-пайплайна?
…сохранении 90–95% качества. ### 5.5 Speculative decoding (спекулятивное декодирование) - Используйте маленькую модель для генерации черновика, а большую — для верификации…
answerКак работает Multi-query attention (MQA) для long context?
…Вики/batch size\|batch size]] больше. - В [[Вики/авторегрессивное декодирование\|autoregressive decoding]] [[Вики/Bottleneck\|bottleneck]] часто — [[Вики/Memory Bandwidth\|memory…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Пропускная способность памяти vs вычислительная мощность [[Вики/inference\|Инференс LLM]] (особенно [[Вики/авторегрессивное декодирование\|авторегрессивная генерация]]) часто упирается в пропускную…
answerКакие trade-offs между разными архитектурами speculative decoding?
…Что такое speculative decoding и зачем он нужен? Speculative decoding (decoding|спекулятивное декодирование) — метод ускорения генерации текста в LLM без…
answerКак вы выбираете между online и batch инференсом для LLM?
…media_type="text/plain") ``` ### 3.2 Speculative Decoding (спекулятивное декодирование) [[Вики/Wave Decoding\|Speculative decoding]] — техника, при которой малая «[[Вики…
wikiИндекс терминов
…сценария]] - [[Вики/Автономное делегирование|Автономное делегирование]] - [[Вики/авторегрессивное декодирование|авторегрессивное декодирование]] - [[Вики/агент в production|агент в production]] - [[Вики/адаптивные…