Поиск

wikihybrid model
# hybrid model ## Определение Модель, объединяющая различные архитектурные подходы, например, Mamba (SSM) и Attention, или каскад из быстрой малой модели и…
wikiGPT-2 Medium
…в качестве target-модели в speculative decoding. ## Где встречается - [[164. Какие trade-offs между разными архитектурами speculative decoding|164. Какие…
wikiUniversal Transformer
# Universal Transformer ## Определение Архитектура нейронной сети, расширяющая Transformer за счёт адаптивного времени вычислений и перекрёстного внимания между слоями. Позволяет модели…
wikiunified architecture
# unified architecture ## Определение Архитектура модели, обрабатывающая различные модальности (текст, изображения) в едином сквозном представлении без раздельных энкодеров, как в Chameleon…
wikiLossless
…распределение выходных токенов целевой модели не изменяется. ## Где встречается - [[164. Какие trade-offs между разными архитектурами speculative decoding|164. Какие…
wikiH3
# H3 ## Определение Гибридная архитектура, комбинирующая state-space модели с механизмом внимания и межслойными связями. ## Где встречается - [[299. Как работает attention…
wikiLinear heads
# Linear heads ## Определение Дополнительные линейные слои, добавляемые поверх языковой модели, используемые в speculative decoding (например, Medusa) для параллельного предсказания нескольких…
wikiSingle representation
…Pairformer для моделирования белков. ## Где встречается - [[727. Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727…
wikiPAE
…основе дополнительной головы модели. ## Где встречается - [[727. Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727…
wikiPair representation
# Pair representation ## Определение Матрица, моделирующая взаимодействия между парами аминокислот в архитектуре Pairformer (AlphaFold 3) для предсказания структуры белков. ## Где встречается…
wikiAdaptive computation time
# Adaptive computation time ## Определение Метод, позволяющий модели динамически определять количество вычислительных шагов для каждого входного примера, оптимизируя баланс между точностью…
wikiSelective state space
…улучшающий эффективность модели. ## Где встречается - [[299. Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает…
wikiLlama-3-70B
…и использованием большей модели]] - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как вы…
wikiShadow mode
…агентами с разными архитектурами (ReAct vs Plan-and-Execute)]] - [[505. Как вы проверяете, что новая версия модели не сломала старые…
wikiMemory Overhead
# Memory Overhead ## Определение Дополнительный расход памяти, необходимый для хранения KV-кэша вспомогательной модели (draft) при speculative decoding. В Independent Draft…
wikiTree Attention
# Tree Attention ## Определение Механизм в speculative decoding, позволяющий target-модели параллельно обрабатывать несколько ветвей кандидатных последовательностей с модифицированной маскировкой для…
wikiDiffusionBERT
# DiffusionBERT ## Определение Архитектура диффузионной языковой модели на основе BERT, генерирующая текст через итеративный процесс шумоподавления с использованием маскированного языка. ## Где…
wikiSwitch Transformer
# Switch Transformer ## Определение Архитектура Mixture of Experts (MoE) с большим числом экспертов и k=1, предложенная Google; первая крупная MoE…
wikimasked language modeling
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiModel Theft
# Model Theft ## Определение Извлечение, копирование или реверс-инжиниринг модели (параметры/архитектура); защита: шифрование, ограничение доступа к API, обфускация. ## Где встречается…
wikiselective pruning
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[216. Как вы…
wikiState Space Model
# State Space Model ## Определение Архитектура нейросети, использующая рекуррентное обновление скрытого состояния на основе модели пространства состояний. SSM-архитектуры эффективнее трансформеров…
wikiКаскад моделей
# Каскад моделей ## Определение Архитектура, в которой сначала применяется быстрая модель, и при низкой уверенности запрос передаётся более тяжёлой модели для…
wikiDETR
# DETR ## Определение Архитектура детекции объектов на основе Transformer, используемая в Table Transformer и grounding. ## Где встречается - [[542. Как вы парсите…
answerКакие trade-offs между разными архитектурами speculative decoding?
…вероятность у target-модели не ниже, чем у draft-модели; иначе — семплируется из скорректированного распределения. --- ## 2. Архитектура Independent Draft [[Вики…
wikiSelf-Speculative Decoding
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[205. Как вы…
wikiстатистическая значимость
…Как работает model watermarking для LLM (идентификация модели-источника)|613. Как работает model watermarking для LLM (идентификация модели-источника)]] - [[803…
wikiFeature-Aware Speculative Decoding
# Feature-Aware Speculative Decoding ## Определение Метод speculative decoding, использующий нейронные сети и скрытые состояния target-модели для высокоточной генерации черновика…
wikiuser satisfaction
…Как вы оцениваете alignment модели с человеческими ценностями без gold standard|499. Как вы оцениваете alignment модели с человеческими ценностями…
wikiLSTM
# LSTM ## Определение Рекуррентная нейронная сеть с ячейками долгой краткосрочной памяти, способная эффективно моделировать последовательности и долгосрочные зависимости. Применяется в задачах…
wikiInfiniBand
…Почему training 70B модели требует optimizer sharding (ZeRO-3)|461. Почему training 70B модели требует optimizer sharding (ZeRO-3)]] - [[462…
answerКак LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
…Как LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия? ## Краткий тезис [[Вики/LLM\|LLM]] и модели на…
wikiViT
# ViT ## Определение Архитектура нейронной сети на основе Transformer для обработки изображений. Используется в качестве vision encoder в моделях GPT-4V…
wikithroughput
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[201. Что такое…
wikitransformers
…Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind|117. Какие embedding-модели для мультимодального поиска вы…
wikiLatency
…Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind|117. Какие embedding-модели для мультимодального поиска вы…
wikiTinyLlama
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[289. Как работает…
answerКак работает attention между слоями (cross-layer attention) в современных архитектурах?
…Как работает attention между слоями (cross-layer attention) в современных архитектурах? ## Краткий тезис attention|Cross-layer attention — это механизм, при…
wikiPrometheus
…Как вы проектируете canary deployment для LLM модели|382. Как вы проектируете canary deployment для LLM модели]] - [[383. Что такое…
wikiTensor parallelism
# Tensor parallelism ## Определение Стратегия распределения модели, при которой веса слоёв разрезаются между GPU, а attention heads распределяются. Требует частых коммуникаций…
wikiResNet
# ResNet ## Определение Архитектура свёрточной нейронной сети с остаточными связями, позволяющая обучать глубокие модели. Используется как энкодер изображений в CLIP наряду…
answerПочему LLM inference memory-bound, а не compute-bound?
…На каждом шаге нужно загрузить все веса модели (например, 70B параметров = 140 GB в [[Вики/Quantization\|FP16]]) из [[Вики/HBM…
answerКак работает эмбеддинг слой и почему его размер (embedding dimension) важен?
…часто применяют отдельные эмбеддинг-модели (sentence-transformers), но в некоторых архитектурах (например, REPLUG) эмбеддинги берутся из LLM. - Представления контекста: агент…
wikicost per request
…двумя агентами с разными архитектурами (ReAct vs Plan-and-Execute)]] - [[509. Как вы сравниваете две модели, если у них разная…
wikiRedis
…Как вы делаете backfill эмбеддингов при смене embedding модели|264. Как вы делаете backfill эмбеддингов при смене embedding модели]] - [[269…
wikihidden representations
# hidden representations ## Определение Внутренние векторы активаций слоёв модели, используемые в методах speculative decoding (EAGLE-3), интервенциях (ReFT) и тест-тайм…
wikiLocust
…Как вы делаете backfill эмбеддингов при смене embedding модели|264. Как вы делаете backfill эмбеддингов при смене embedding модели]] - [[305…
answerNVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?
…LLM serving — процесс развёртывания и обслуживания запросов к большой языковой модели в реальном времени. KV cache — кэш ключей и значений…
answerЧто такое AI for materials science (GNoME, MatterGen) и как это отличается от text LLM?
…что такое AI for materials science AI for materials science — это междисциплинарная область, где модели машинного обучения (особенно глубокие нейронные…
wikiTransformer
# Transformer ## Определение Архитектура нейронной сети, основанная на механизме внимания, лежащая в основе большинства современных LLM и моделей последовательностей. ## Где встречается…