Поиск

  • wikihybrid model

    # hybrid model ## Определение Модель, объединяющая различные архитектурные подходы, например, Mamba (SSM) и Attention, или каскад из быстрой малой модели и…

  • wikiGPT-2 Medium

    …в качестве target-модели в speculative decoding. ## Где встречается - [[164. Какие trade-offs между разными архитектурами speculative decoding|164. Какие…

  • wikiUniversal Transformer

    # Universal Transformer ## Определение Архитектура нейронной сети, расширяющая Transformer за счёт адаптивного времени вычислений и перекрёстного внимания между слоями. Позволяет модели

  • wikiunified architecture

    # unified architecture ## Определение Архитектура модели, обрабатывающая различные модальности (текст, изображения) в едином сквозном представлении без раздельных энкодеров, как в Chameleon…

  • wikiLossless

    …распределение выходных токенов целевой модели не изменяется. ## Где встречается - [[164. Какие trade-offs между разными архитектурами speculative decoding|164. Какие…

  • wikiH3

    # H3 ## Определение Гибридная архитектура, комбинирующая state-space модели с механизмом внимания и межслойными связями. ## Где встречается - [[299. Как работает attention…

  • wikiLinear heads

    # Linear heads ## Определение Дополнительные линейные слои, добавляемые поверх языковой модели, используемые в speculative decoding (например, Medusa) для параллельного предсказания нескольких…

  • wikiSingle representation

    …Pairformer для моделирования белков. ## Где встречается - [[727. Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727…

  • wikiPAE

    …основе дополнительной головы модели. ## Где встречается - [[727. Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727…

  • wikiPair representation

    # Pair representation ## Определение Матрица, моделирующая взаимодействия между парами аминокислот в архитектуре Pairformer (AlphaFold 3) для предсказания структуры белков. ## Где встречается…

  • wikiAdaptive computation time

    # Adaptive computation time ## Определение Метод, позволяющий модели динамически определять количество вычислительных шагов для каждого входного примера, оптимизируя баланс между точностью…

  • wikiSelective state space

    …улучшающий эффективность модели. ## Где встречается - [[299. Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает…

  • wikiLlama-3-70B

    …и использованием большей модели]] - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как вы…

  • wikiShadow mode

    …агентами с разными архитектурами (ReAct vs Plan-and-Execute)]] - [[505. Как вы проверяете, что новая версия модели не сломала старые…

  • wikiMemory Overhead

    # Memory Overhead ## Определение Дополнительный расход памяти, необходимый для хранения KV-кэша вспомогательной модели (draft) при speculative decoding. В Independent Draft…

  • wikiTree Attention

    # Tree Attention ## Определение Механизм в speculative decoding, позволяющий target-модели параллельно обрабатывать несколько ветвей кандидатных последовательностей с модифицированной маскировкой для…

  • wikiDiffusionBERT

    # DiffusionBERT ## Определение Архитектура диффузионной языковой модели на основе BERT, генерирующая текст через итеративный процесс шумоподавления с использованием маскированного языка. ## Где…

  • wikiSwitch Transformer

    # Switch Transformer ## Определение Архитектура Mixture of Experts (MoE) с большим числом экспертов и k=1, предложенная Google; первая крупная MoE…

  • wikimasked language modeling

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiModel Theft

    # Model Theft ## Определение Извлечение, копирование или реверс-инжиниринг модели (параметры/архитектура); защита: шифрование, ограничение доступа к API, обфускация. ## Где встречается…

  • wikiselective pruning

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[216. Как вы…

  • wikiState Space Model

    # State Space Model ## Определение Архитектура нейросети, использующая рекуррентное обновление скрытого состояния на основе модели пространства состояний. SSM-архитектуры эффективнее трансформеров…

  • wikiКаскад моделей

    # Каскад моделей ## Определение Архитектура, в которой сначала применяется быстрая модель, и при низкой уверенности запрос передаётся более тяжёлой модели для…

  • wikiDETR

    # DETR ## Определение Архитектура детекции объектов на основе Transformer, используемая в Table Transformer и grounding. ## Где встречается - [[542. Как вы парсите…

  • answerКакие trade-offs между разными архитектурами speculative decoding?

    …вероятность у target-модели не ниже, чем у draft-модели; иначе — семплируется из скорректированного распределения. --- ## 2. Архитектура Independent Draft [[Вики…

  • wikiSelf-Speculative Decoding

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[205. Как вы…

  • wikiстатистическая значимость

    …Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[803…

  • wikiFeature-Aware Speculative Decoding

    # Feature-Aware Speculative Decoding ## Определение Метод speculative decoding, использующий нейронные сети и скрытые состояния target-модели для высокоточной генерации черновика…

  • wikiuser satisfaction

    …Как вы оцениваете alignment модели с человеческими ценностями без gold standard|499. Как вы оцениваете alignment модели с человеческими ценностями…

  • wikiLSTM

    # LSTM ## Определение Рекуррентная нейронная сеть с ячейками долгой краткосрочной памяти, способная эффективно моделировать последовательности и долгосрочные зависимости. Применяется в задачах…

  • wikiInfiniBand

    …Почему training 70B модели требует optimizer sharding (ZeRO-3)|461. Почему training 70B модели требует optimizer sharding (ZeRO-3)]] - [[462…

  • answerКак LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия? ## Краткий тезис [[Вики/LLM\|LLM]] и модели на…

  • wikiViT

    # ViT ## Определение Архитектура нейронной сети на основе Transformer для обработки изображений. Используется в качестве vision encoder в моделях GPT-4V…

  • wikithroughput

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[201. Что такое…

  • wikitransformers

    …Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind|117. Какие embedding-модели для мультимодального поиска вы…

  • wikiLatency

    …Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind|117. Какие embedding-модели для мультимодального поиска вы…

  • wikiTinyLlama

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[289. Как работает…

  • answerКак работает attention между слоями (cross-layer attention) в современных архитектурах?

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах? ## Краткий тезис attention|Cross-layer attention — это механизм, при…

  • wikiPrometheus

    …Как вы проектируете canary deployment для LLM модели|382. Как вы проектируете canary deployment для LLM модели]] - [[383. Что такое…

  • wikiTensor parallelism

    # Tensor parallelism ## Определение Стратегия распределения модели, при которой веса слоёв разрезаются между GPU, а attention heads распределяются. Требует частых коммуникаций…

  • wikiResNet

    # ResNet ## Определение Архитектура свёрточной нейронной сети с остаточными связями, позволяющая обучать глубокие модели. Используется как энкодер изображений в CLIP наряду…

  • answerПочему LLM inference memory-bound, а не compute-bound?

    …На каждом шаге нужно загрузить все веса модели (например, 70B параметров = 140 GB в [[Вики/Quantization\|FP16]]) из [[Вики/HBM…

  • answerКак работает эмбеддинг слой и почему его размер (embedding dimension) важен?

    …часто применяют отдельные эмбеддинг-модели (sentence-transformers), но в некоторых архитектурах (например, REPLUG) эмбеддинги берутся из LLM. - Представления контекста: агент…

  • wikicost per request

    …двумя агентами с разными архитектурами (ReAct vs Plan-and-Execute)]] - [[509. Как вы сравниваете две модели, если у них разная…

  • wikiRedis

    …Как вы делаете backfill эмбеддингов при смене embedding модели|264. Как вы делаете backfill эмбеддингов при смене embedding модели]] - [[269…

  • wikihidden representations

    # hidden representations ## Определение Внутренние векторы активаций слоёв модели, используемые в методах speculative decoding (EAGLE-3), интервенциях (ReFT) и тест-тайм…

  • wikiLocust

    …Как вы делаете backfill эмбеддингов при смене embedding модели|264. Как вы делаете backfill эмбеддингов при смене embedding модели]] - [[305…

  • answerNVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?

    …LLM serving — процесс развёртывания и обслуживания запросов к большой языковой модели в реальном времени. KV cache — кэш ключей и значений…

  • answerЧто такое AI for materials science (GNoME, MatterGen) и как это отличается от text LLM?

    …что такое AI for materials science AI for materials science — это междисциплинарная область, где модели машинного обучения (особенно глубокие нейронные…

  • wikiTransformer

    # Transformer ## Определение Архитектура нейронной сети, основанная на механизме внимания, лежащая в основе большинства современных LLM и моделей последовательностей. ## Где встречается…