Поиск

wikiActive-Passive архитектура
# Active-Passive архитектура ## Определение Архитектура, в которой только основной регион активен, а резервный находится в режиме ожидания; переключение занимает несколько…
wikiActive-Active архитектура
# Active-Active архитектура ## Определение Архитектура, в которой оба региона одновременно обслуживают трафик и синхронно реплицируют данные, обеспечивая мгновенное переключение при…
wikiREALM
# REALM ## Определение Архитектура, интегрирующая retrieval и генерацию с помощью cross-attention между скрытыми состояниями энкодера и декодера. ## Где встречается - [[299…
wikiALBERT
# ALBERT ## Определение Архитектура трансформера с разделением параметров между слоями для уменьшения числа параметров, но без cross-layer attention. ## Где встречается…
wikiTree Cache Management
# Tree Cache Management ## Определение Управление кэшем KV при параллельной верификации нескольких последовательностей (дерево) в архитектурах типа Medusa или Self-Speculative…
wikiMamba
# Mamba ## Определение Архитектура нейронной сети на основе State Space Models (SSM) с линейной вычислительной сложностью O(n), альтернатива трансформерам для…
wikiUniversal Transformer
# Universal Transformer ## Определение Архитектура нейронной сети, расширяющая Transformer за счёт адаптивного времени вычислений и перекрёстного внимания между слоями. Позволяет модели…
wikiСобытийная архитектура
# Событийная архитектура ## Определение Архитектурный стиль, в котором компоненты системы асинхронно реагируют на события (например, через Kafka), обеспечивая real-time обработку…
wikihybrid model
# hybrid model ## Определение Модель, объединяющая различные архитектурные подходы, например, Mamba (SSM) и Attention, или каскад из быстрой малой модели и…
wikiFiD
…Fusion-in-Decoder — архитектура для объединения нескольких документов при генерации; Fréchet Inception Distance — метрика для оценки разнообразия и качества синтетических…
wikicross-layer attention
…Используется в некоторых архитектурах (H3, RWKV) для улучшения передачи информации. ## Где встречается - [[299. Как работает attention между слоями (cross-layer…
wikiReformer
# Reformer ## Определение Эффективная архитектура Transformer, использующая LSH attention (Locality-Sensitive Hashing) для аппроксимации внимания, что позволяет работать с длинными контекстами…
wikiH3
# H3 ## Определение Гибридная архитектура, комбинирующая state-space модели с механизмом внимания и межслойными связями. ## Где встречается - [[299. Как работает attention…
wikiIndependent Draft
# Independent Draft ## Определение Архитектура speculative decoding, где используется отдельная маленькая модель для генерации черновиков. Проста в реализации, но требует вдвое…
wikiunified architecture
# unified architecture ## Определение Архитектура модели, обрабатывающая различные модальности (текст, изображения) в едином сквозном представлении без раздельных энкодеров, как в Chameleon…
wikiReference architecture
# Reference architecture ## Определение Эталонная архитектура — типовое проектное решение, служащее образцом и облегчающее разработку систем за счёт проверенных практик и компонентов…
wikiLossless
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] ## Навигация - [[00. Индекс…
wikiTree attention mask
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] ## Навигация - [[00. Индекс…
wikiHorizontal Pod Autoscaler
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
wikiGPT-2 Medium
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] ## Навигация - [[00. Индекс…
wikiESMFold
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiLinear heads
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] ## Навигация - [[00. Индекс…
wikiCentralized architecture
# Centralized architecture ## Определение Архитектура с центральным оркестратором для управления агентами ## Где встречается - [[726. Как предотвращать free-riding в multi-agent…
wikiRediSearch
…Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как вы проектируете RAG для 10k RPS…
wikiSingle representation
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiDecentralized architecture
# Decentralized architecture ## Определение Архитектура, в которой агенты взаимодействуют напрямую без центрального координатора. ## Где встречается - [[726. Как предотвращать free-riding в…
wikifail-safe architecture
# fail-safe architecture ## Определение Отказоустойчивая архитектура (fail-safe architecture) — проектирование системы, включающее механизмы эскалации и безопасного отказа для обеспечения надёжности…
wikiFAPE
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiLSH attention
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiPAE
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiRMSD
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiEKS
…Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как вы проектируете RAG для 10k RPS…
wikiOpenWebText
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[56. Реализовать diffusion…
wikiPairformer
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiPair representation
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiAdaptive computation time
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiRWKV
# RWKV ## Определение Гибридная архитектура нейронной сети, объединяющая рекуррентные вычисления RNN с механизмом внимания Transformer, обеспечивающая линейную сложность инференса. ## Где встречается…
wikiESM3
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiKV cache management
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[800+ вопросов|800…
wikiState Space Model
# State Space Model ## Определение Архитектура нейросети, использующая рекуррентное обновление скрытого состояния на основе модели пространства состояний. SSM-архитектуры эффективнее трансформеров…
wikiB200
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
wikiHopper GPU
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
wikiAlphaFold 3
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiMultiple Sequence Alignment
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiSelective state space
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiGPT-3
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[675. Как работает…
wikiPod Disruption Budgets
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiPlanner/Executor Architecture
# Planner/Executor Architecture ## Определение Архитектура агента, где LLM-планировщик генерирует план, а исполнитель (LLM или rule-based) выполняет шаги с…
wikiDense connections
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
wikiBlackwell architecture
# Blackwell architecture ## Определение Архитектура GPU NVIDIA B200 с пятым поколением Tensor Cores и TMA (Tensor Memory Accelerator) для ускорения операций…