Поиск
- wikiActive-Passive архитектура
# Active-Passive архитектура ## Определение Архитектура, в которой только основной регион активен, а резервный находится в режиме ожидания; переключение занимает несколько…
- wikiActive-Active архитектура
# Active-Active архитектура ## Определение Архитектура, в которой оба региона одновременно обслуживают трафик и синхронно реплицируют данные, обеспечивая мгновенное переключение при…
- wikiREALM
# REALM ## Определение Архитектура, интегрирующая retrieval и генерацию с помощью cross-attention между скрытыми состояниями энкодера и декодера. ## Где встречается - [[299…
- wikiALBERT
# ALBERT ## Определение Архитектура трансформера с разделением параметров между слоями для уменьшения числа параметров, но без cross-layer attention. ## Где встречается…
- wikiTree Cache Management
# Tree Cache Management ## Определение Управление кэшем KV при параллельной верификации нескольких последовательностей (дерево) в архитектурах типа Medusa или Self-Speculative…
- wikiMamba
# Mamba ## Определение Архитектура нейронной сети на основе State Space Models (SSM) с линейной вычислительной сложностью O(n), альтернатива трансформерам для…
- wikiUniversal Transformer
# Universal Transformer ## Определение Архитектура нейронной сети, расширяющая Transformer за счёт адаптивного времени вычислений и перекрёстного внимания между слоями. Позволяет модели…
- wikiСобытийная архитектура
# Событийная архитектура ## Определение Архитектурный стиль, в котором компоненты системы асинхронно реагируют на события (например, через Kafka), обеспечивая real-time обработку…
- wikihybrid model
# hybrid model ## Определение Модель, объединяющая различные архитектурные подходы, например, Mamba (SSM) и Attention, или каскад из быстрой малой модели и…
- wikiFiD
…Fusion-in-Decoder — архитектура для объединения нескольких документов при генерации; Fréchet Inception Distance — метрика для оценки разнообразия и качества синтетических…
- wikicross-layer attention
…Используется в некоторых архитектурах (H3, RWKV) для улучшения передачи информации. ## Где встречается - [[299. Как работает attention между слоями (cross-layer…
- wikiReformer
# Reformer ## Определение Эффективная архитектура Transformer, использующая LSH attention (Locality-Sensitive Hashing) для аппроксимации внимания, что позволяет работать с длинными контекстами…
- wikiH3
# H3 ## Определение Гибридная архитектура, комбинирующая state-space модели с механизмом внимания и межслойными связями. ## Где встречается - [[299. Как работает attention…
- wikiIndependent Draft
# Independent Draft ## Определение Архитектура speculative decoding, где используется отдельная маленькая модель для генерации черновиков. Проста в реализации, но требует вдвое…
- wikiunified architecture
# unified architecture ## Определение Архитектура модели, обрабатывающая различные модальности (текст, изображения) в едином сквозном представлении без раздельных энкодеров, как в Chameleon…
- wikiReference architecture
# Reference architecture ## Определение Эталонная архитектура — типовое проектное решение, служащее образцом и облегчающее разработку систем за счёт проверенных практик и компонентов…
- wikiLossless
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] ## Навигация - [[00. Индекс…
- wikiTree attention mask
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] ## Навигация - [[00. Индекс…
- wikiHorizontal Pod Autoscaler
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
- wikiGPT-2 Medium
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] ## Навигация - [[00. Индекс…
- wikiESMFold
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiLinear heads
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] ## Навигация - [[00. Индекс…
- wikiCentralized architecture
# Centralized architecture ## Определение Архитектура с центральным оркестратором для управления агентами ## Где встречается - [[726. Как предотвращать free-riding в multi-agent…
- wikiRediSearch
…Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как вы проектируете RAG для 10k RPS…
- wikiSingle representation
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiDecentralized architecture
# Decentralized architecture ## Определение Архитектура, в которой агенты взаимодействуют напрямую без центрального координатора. ## Где встречается - [[726. Как предотвращать free-riding в…
- wikifail-safe architecture
# fail-safe architecture ## Определение Отказоустойчивая архитектура (fail-safe architecture) — проектирование системы, включающее механизмы эскалации и безопасного отказа для обеспечения надёжности…
- wikiFAPE
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiLSH attention
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiPAE
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiRMSD
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiEKS
…Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как вы проектируете RAG для 10k RPS…
- wikiOpenWebText
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[56. Реализовать diffusion…
- wikiPairformer
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiPair representation
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiAdaptive computation time
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiRWKV
# RWKV ## Определение Гибридная архитектура нейронной сети, объединяющая рекуррентные вычисления RNN с механизмом внимания Transformer, обеспечивающая линейную сложность инференса. ## Где встречается…
- wikiESM3
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiKV cache management
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[800+ вопросов|800…
- wikiState Space Model
# State Space Model ## Определение Архитектура нейросети, использующая рекуррентное обновление скрытого состояния на основе модели пространства состояний. SSM-архитектуры эффективнее трансформеров…
- wikiB200
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
- wikiHopper GPU
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
- wikiAlphaFold 3
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiMultiple Sequence Alignment
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiSelective state space
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiGPT-3
…Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[675. Как работает…
- wikiPod Disruption Budgets
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiPlanner/Executor Architecture
# Planner/Executor Architecture ## Определение Архитектура агента, где LLM-планировщик генерирует план, а исполнитель (LLM или rule-based) выполняет шаги с…
- wikiDense connections
…Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…
- wikiBlackwell architecture
# Blackwell architecture ## Определение Архитектура GPU NVIDIA B200 с пятым поколением Tensor Cores и TMA (Tensor Memory Accelerator) для ускорения операций…