Поиск
- wikiparallel forward pass
# parallel forward pass ## Определение Метод инференса, при котором target-модель обрабатывает несколько токенов за один проход, например, в speculative decoding…
- wikid_ff
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikiforward pass
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikiWordPiece
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikiWeight tying
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikiEmbedding layer
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikivocabulary size
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikiдекодирующая голова
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikid_model
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- answerКак speculative decoding ускоряет inference? (детально)
…Это означает [[Вики/sequential delegation\|последовательные вызовы]] модели, где каждый шаг требует полного [[Вики/backward pass\|forward pass]] через десятки…
- wikiSentencePiece
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikiSwiGLU
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikiattention masking
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikiSynthetic batch
# Synthetic batch ## Определение Искусственный мини-батч данных, используемый для быстрой проверки корректности прямого прохода модели (forward pass) перед полноценным обучением…
- answerЧто такое Wave Decoding и чем отличается от стандартного авторегрессивного?
…logits = model(tokens) # forward pass next_token = sample(logits[-1]) tokens.append(next_token) return tokens ``` --- ## 2. Проблема авторегрессивного декодирования…
- wikiALiBi
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikiintervention
# intervention ## Определение Направленное изменение скрытых представлений модели во время прямого прохода (forward pass), применяемое в методах тонкой настройки, таких как…
- wikipost-norm
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikiresidual connection
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikipre-normalization
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikiBPE
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikitoken-level scheduler
…выбирает, какие токены из активных запросов будут участвовать в forward pass. Обычно использует FIFO-очередь с приоритетами. ## Где встречается - [[453…
- wikiнеавторегрессивное декодирование
# неавторегрессивное декодирование ## Определение Метод генерации, при котором несколько токенов или блоков токенов генерируются параллельно за один forward pass, что увеличивает…
- wikiTop-k sampling
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- answerЧто такое Medusa (multiple heads) для speculative decoding?
…Это позволяет генерировать несколько токенов за один [[Вики/forward pass\|forward pass]], что даёт [[Вики/speedup\|ускорение]] в 2–3…
- wikiPosition Encoding
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikitokenizer
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikiRoPE
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RWKV для инференса
…передать `input_ids.unsqueeze(0)`, замерить `[[Вики/forward pass\|model.forward]]()` без генерации (просто один [[Вики/backpropagation\|forward pass]]) - Для…
- answerЧто такое activation offloading и когда он нужен?
…Во время [[Вики/forward pass\|forward pass]] они вычисляются и сохраняются, потому что нужны для вычисления градиентов на этапе [[Вики…
- wikiTop-p (nucleus) sampling
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- answerКак работает forward pass LLM: от токена до вероятности следующего токена?
…Как работает forward pass LLM: от токена до вероятности следующего токена? ## Краткий тезис [[Вики/backward pass\|Forward pass]] [[Вики/LLM…
- wikiLayerNorm
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- wikiMulti-Head Attention
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить CUDA graphs для коротких запросов
…Latency замеряется на одном forward pass (без учёта первого раза на capture). --- ### Этап 5: Бенчмаркинг и анализ (1 час) [[Вики…
- wikibackpropagation
# backpropagation ## Определение Метод обучения нейронных сетей, использующий цепное правило для вычисления градиентов функции потерь по всем параметрам. Применяется на этапе…
- wikiFFN
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- answerЧто такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса?
…В отличие от обычного инференса, который заканчивается за один forward pass (прямой проход) и сразу генерирует ответ, TTC позволяет модели…
- answerКак вы обеспечиваете низкую задержку (<500ms) для LLM?
…Batch inference (пакетный инференс) [[Вики/batch size\|Batch inference]] — объединение нескольких независимых запросов в один [[Вики/backpropagation\|forward pass]] на…
- answerПочему LLM inference memory-bound, а не compute-bound?
…total [[Вики/FLOPs\|FLOPs]] для одного [[Вики/backward pass\|forward pass]] всей модели), поэтому узким местом становится [[Вики/tokens per…
- wikilogits
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- answerКак работают CUDA graphs и когда их использовать?
…Если чистый [[Вики/compute\|compute]] [[Вики/time\|time]] [[Вики/backpropagation\|forward pass]] 50 мс, то [[Вики/overhead\|overhead]] добавляет 12…
- answerКак работает selective activation recomputation?
…При прямом проходе ([[Вики/backward pass\|forward pass]]) для каждого слоя сохраняются **активации** — промежуточные тензоры, необходимые для обратного распространения [[Вики…
- wikiSoftmax
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- answerКак вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)?
…Сравнение logit-based vs ensemble | Критерий | Logit-based | Ensemble | |-----------|-------------|----------| | Скорость | Один forward pass | N forward passes (N=5-20) | | Точность…
- wikimixed precision training
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
- answerЧто такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA?
…forward pass\|Инференс]] без накладок — [[Вики/LoRA\|LoRA]] можно слить с весами модели (merge), после чего [[Вики/forward pass\|инференс…
- answerКак вы оптимизируете embedding генерацию для большого количества документов?
…уменьшает [[Вики/memory footprint\|использование памяти]] и ускоряет вычисления. ```python model.half() # модель весит в 2 раза меньше, forward pass…
- answerЧто такое CUDA graphs и как они ускоряют LLM инференс?
…Напишите функцию `inference_without_graph`, которая выполняет `model.generate()` (или просто forward pass) и замеряет время. 4. Напишите функцию `inference…
- answerЧто такое EAGLE-3 и чем он отличается от стандартного speculative decoding?
…Почему это работает - [[Вики/draft model\|Draft model]] намного меньше (например, 100M параметров против 7B), поэтому её [[Вики/backpropagation\|forward…