Поиск

  • wikiparallel forward pass

    # parallel forward pass ## Определение Метод инференса, при котором target-модель обрабатывает несколько токенов за один проход, например, в speculative decoding…

  • wikid_ff

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikiforward pass

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikiWordPiece

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikiWeight tying

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikiEmbedding layer

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikivocabulary size

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikiдекодирующая голова

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikid_model

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • answerКак speculative decoding ускоряет inference? (детально)

    …Это означает [[Вики/sequential delegation\|последовательные вызовы]] модели, где каждый шаг требует полного [[Вики/backward pass\|forward pass]] через десятки…

  • wikiSentencePiece

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikiSwiGLU

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikiattention masking

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikiSynthetic batch

    # Synthetic batch ## Определение Искусственный мини-батч данных, используемый для быстрой проверки корректности прямого прохода модели (forward pass) перед полноценным обучением…

  • answerЧто такое Wave Decoding и чем отличается от стандартного авторегрессивного?

    …logits = model(tokens) # forward pass next_token = sample(logits[-1]) tokens.append(next_token) return tokens ``` --- ## 2. Проблема авторегрессивного декодирования…

  • wikiALiBi

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikiintervention

    # intervention ## Определение Направленное изменение скрытых представлений модели во время прямого прохода (forward pass), применяемое в методах тонкой настройки, таких как…

  • wikipost-norm

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikiresidual connection

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikipre-normalization

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikiBPE

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikitoken-level scheduler

    …выбирает, какие токены из активных запросов будут участвовать в forward pass. Обычно использует FIFO-очередь с приоритетами. ## Где встречается - [[453…

  • wikiнеавторегрессивное декодирование

    # неавторегрессивное декодирование ## Определение Метод генерации, при котором несколько токенов или блоков токенов генерируются параллельно за один forward pass, что увеличивает…

  • wikiTop-k sampling

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • answerЧто такое Medusa (multiple heads) для speculative decoding?

    …Это позволяет генерировать несколько токенов за один [[Вики/forward pass\|forward pass]], что даёт [[Вики/speedup\|ускорение]] в 2–3…

  • wikiPosition Encoding

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikitokenizer

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikiRoPE

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RWKV для инференса

    …передать `input_ids.unsqueeze(0)`, замерить `[[Вики/forward pass\|model.forward]]()` без генерации (просто один [[Вики/backpropagation\|forward pass]]) - Для…

  • answerЧто такое activation offloading и когда он нужен?

    …Во время [[Вики/forward pass\|forward pass]] они вычисляются и сохраняются, потому что нужны для вычисления градиентов на этапе [[Вики…

  • wikiTop-p (nucleus) sampling

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • answerКак работает forward pass LLM: от токена до вероятности следующего токена?

    …Как работает forward pass LLM: от токена до вероятности следующего токена? ## Краткий тезис [[Вики/backward pass\|Forward pass]] [[Вики/LLM…

  • wikiLayerNorm

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • wikiMulti-Head Attention

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить CUDA graphs для коротких запросов

    …Latency замеряется на одном forward pass (без учёта первого раза на capture). --- ### Этап 5: Бенчмаркинг и анализ (1 час) [[Вики…

  • wikibackpropagation

    # backpropagation ## Определение Метод обучения нейронных сетей, использующий цепное правило для вычисления градиентов функции потерь по всем параметрам. Применяется на этапе…

  • wikiFFN

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • answerЧто такое тест-тайм компьютинг (Test-Time Compute) и чем он отличается от обычного инференса?

    …В отличие от обычного инференса, который заканчивается за один forward pass (прямой проход) и сразу генерирует ответ, TTC позволяет модели…

  • answerКак вы обеспечиваете низкую задержку (<500ms) для LLM?

    …Batch inference (пакетный инференс) [[Вики/batch size\|Batch inference]] — объединение нескольких независимых запросов в один [[Вики/backpropagation\|forward pass]] на…

  • answerПочему LLM inference memory-bound, а не compute-bound?

    …total [[Вики/FLOPs\|FLOPs]] для одного [[Вики/backward pass\|forward pass]] всей модели), поэтому узким местом становится [[Вики/tokens per…

  • wikilogits

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • answerКак работают CUDA graphs и когда их использовать?

    …Если чистый [[Вики/compute\|compute]] [[Вики/time\|time]] [[Вики/backpropagation\|forward pass]] 50 мс, то [[Вики/overhead\|overhead]] добавляет 12…

  • answerКак работает selective activation recomputation?

    …При прямом проходе ([[Вики/backward pass\|forward pass]]) для каждого слоя сохраняются **активации** — промежуточные тензоры, необходимые для обратного распространения [[Вики…

  • wikiSoftmax

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • answerКак вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)?

    …Сравнение logit-based vs ensemble | Критерий | Logit-based | Ensemble | |-----------|-------------|----------| | Скорость | Один forward pass | N forward passes (N=5-20) | | Точность…

  • wikimixed precision training

    …Как работает forward pass LLM от токена до вероятности следующего токена|677. Как работает forward pass LLM от токена до…

  • answerЧто такое ReFT (Representation Fine-Tuning) и когда он лучше LoRA?

    forward pass\|Инференс]] без накладок — [[Вики/LoRA\|LoRA]] можно слить с весами модели (merge), после чего [[Вики/forward pass\|инференс…

  • answerКак вы оптимизируете embedding генерацию для большого количества документов?

    …уменьшает [[Вики/memory footprint\|использование памяти]] и ускоряет вычисления. ```python model.half() # модель весит в 2 раза меньше, forward pass

  • answerЧто такое CUDA graphs и как они ускоряют LLM инференс?

    …Напишите функцию `inference_without_graph`, которая выполняет `model.generate()` (или просто forward pass) и замеряет время. 4. Напишите функцию `inference…

  • answerЧто такое EAGLE-3 и чем он отличается от стандартного speculative decoding?

    …Почему это работает - [[Вики/draft model\|Draft model]] намного меньше (например, 100M параметров против 7B), поэтому её [[Вики/backpropagation\|forward