Поиск

wikiparallel forward pass
# parallel forward pass ## Определение Метод инференса, при котором target-модель обрабатывает несколько токенов за один проход, например, в speculative decoding…
wikid_ff
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikiforward pass
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikiWordPiece
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikiWeight tying
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikiEmbedding layer
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikivocabulary size
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikiдекодирующая голова
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikid_model
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
answerКак speculative decoding ускоряет inference? (детально)
…Это означает [[Вики/sequential delegation\|последовательные вызовы]] модели, где каждый шаг требует полного [[Вики/backward pass\|forward pass]] через десятки…
wikiSentencePiece
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikiSwiGLU
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikiattention masking
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikiSynthetic batch
# Synthetic batch ## Определение Искусственный мини-батч данных, используемый для быстрой проверки корректности прямого прохода модели (forward pass) перед полноценным обучением…
answerЧто такое Wave Decoding и чем отличается от стандартного авторегрессивного?
…logits = model(tokens) # forward pass next_token = sample(logits[-1]) tokens.append(next_token) return tokens ``` --- ## 2. Проблема авторегрессивного декодирования…
wikiALiBi
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikiintervention
# intervention ## Определение Направленное изменение скрытых представлений модели во время прямого прохода (forward pass), применяемое в методах тонкой настройки, таких как…
wikipost-norm
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikiresidual connection
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikipre-normalization
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikiBPE
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikitoken-level scheduler
…выбирает, какие токены из активных запросов будут участвовать в forward pass. Обычно использует FIFO-очередь с приоритетами. ## Где встречается - [[453…
wikiнеавторегрессивное декодирование
# неавторегрессивное декодирование ## Определение Метод генерации, при котором несколько токенов или блоков токенов генерируются параллельно за один forward pass, что увеличивает…
wikiTop-k sampling
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
answerЧто такое Medusa (multiple heads) для speculative decoding?
…Это позволяет генерировать несколько токенов за один [[Вики/forward pass\|forward pass]], что даёт [[Вики/speedup\|ускорение]] в 2–3…
wikiPosition Encoding
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikitokenizer
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikiRoPE
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RWKV для инференса
…передать `input_ids.unsqueeze(0)`, замерить `[[Вики/forward pass\|model.forward]]()` без генерации (просто один [[Вики/backpropagation\|forward pass]]) - Для…
answerЧто такое activation offloading и когда он нужен?
…Во время [[Вики/forward pass\|forward pass]] они вычисляются и сохраняются, потому что нужны для вычисления градиентов на этапе [[Вики…
wikiTop-p (nucleus) sampling
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
answerКак работает forward pass LLM: от токена до вероятности следующего токена?
…Как работает forward pass LLM: от токена до вероятности следующего токена? ## Краткий тезис [[Вики/backward pass\|Forward pass]] [[Вики/LLM…
wikiLayerNorm
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
wikiMulti-Head Attention
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить CUDA graphs для коротких запросов
…Latency замеряется на одном forward pass (без учёта первого раза на capture). --- ### Этап 5: Бенчмаркинг и анализ (1 час) [[Вики…
wikibackpropagation
# backpropagation ## Определение Метод обучения нейронных сетей, использующий цепное правило для вычисления градиентов функции потерь по всем параметрам. Применяется на этапе…
wikiFFN
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
answerЧто такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса?
…В отличие от обычного инференса, который заканчивается за один forward pass (прямой проход) и сразу генерирует ответ, TTC позволяет модели…
answerКак вы обеспечиваете низкую задержку (<500ms) для LLM?
…Batch inference (пакетный инференс) [[Вики/batch size\|Batch inference]] — объединение нескольких независимых запросов в один [[Вики/backpropagation\|forward pass]] на…
answerПочему LLM inference memory-bound, а не compute-bound?
…total [[Вики/FLOPs\|FLOPs]] для одного [[Вики/backward pass\|forward pass]] всей модели), поэтому узким местом становится [[Вики/tokens per…
wikilogits
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
answerКак работают CUDA graphs и когда их использовать?
…Если чистый [[Вики/compute\|compute]] [[Вики/time\|time]] [[Вики/backpropagation\|forward pass]] 50 мс, то [[Вики/overhead\|overhead]] добавляет 12…
answerКак работает selective activation recomputation?
…При прямом проходе ([[Вики/backward pass\|forward pass]]) для каждого слоя сохраняются **активации** — промежуточные тензоры, необходимые для обратного распространения [[Вики…
wikiSoftmax
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
answerКак вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)?
…Сравнение logit-based vs ensemble | Критерий | Logit-based | Ensemble | |-----------|-------------|----------| | Скорость | Один forward pass | N forward passes (N=5-20) | | Точность…
wikimixed precision training
…Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…
answerЧто такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA?
…forward pass\|Инференс]] без накладок — [[Вики/LoRA\|LoRA]] можно слить с весами модели (merge), после чего [[Вики/forward pass\|инференс…
answerКак вы оптимизируете embedding генерацию для большого количества документов?
…уменьшает [[Вики/memory footprint\|использование памяти]] и ускоряет вычисления. ```python model.half() # модель весит в 2 раза меньше, forward pass…
answerЧто такое CUDA graphs и как они ускоряют LLM инференс?
…Напишите функцию `inference_without_graph`, которая выполняет `model.generate()` (или просто forward pass) и замеряет время. 4. Напишите функцию `inference…
answerЧто такое EAGLE-3 и чем он отличается от стандартного speculative decoding?
…Почему это работает - [[Вики/draft model\|Draft model]] намного меньше (например, 100M параметров против 7B), поэтому её [[Вики/backpropagation\|forward…