Поиск

  • wikiActive-Passive архитектура

    # Active-Passive архитектура ## Определение Архитектура, в которой только основной регион активен, а резервный находится в режиме ожидания; переключение занимает несколько…

  • wikiActive-Active архитектура

    # Active-Active архитектура ## Определение Архитектура, в которой оба региона одновременно обслуживают трафик и синхронно реплицируют данные, обеспечивая мгновенное переключение при…

  • wikiREALM

    # REALM ## Определение Архитектура, интегрирующая retrieval и генерацию с помощью cross-attention между скрытыми состояниями энкодера и декодера. ## Где встречается - [[299…

  • wikiALBERT

    # ALBERT ## Определение Архитектура трансформера с разделением параметров между слоями для уменьшения числа параметров, но без cross-layer attention. ## Где встречается…

  • wikiTree Cache Management

    # Tree Cache Management ## Определение Управление кэшем KV при параллельной верификации нескольких последовательностей (дерево) в архитектурах типа Medusa или Self-Speculative…

  • wikiMamba

    # Mamba ## Определение Архитектура нейронной сети на основе State Space Models (SSM) с линейной вычислительной сложностью O(n), альтернатива трансформерам для…

  • wikiUniversal Transformer

    # Universal Transformer ## Определение Архитектура нейронной сети, расширяющая Transformer за счёт адаптивного времени вычислений и перекрёстного внимания между слоями. Позволяет модели…

  • wikiСобытийная архитектура

    # Событийная архитектура ## Определение Архитектурный стиль, в котором компоненты системы асинхронно реагируют на события (например, через Kafka), обеспечивая real-time обработку…

  • wikihybrid model

    # hybrid model ## Определение Модель, объединяющая различные архитектурные подходы, например, Mamba (SSM) и Attention, или каскад из быстрой малой модели и…

  • wikiFiD

    …Fusion-in-Decoder — архитектура для объединения нескольких документов при генерации; Fréchet Inception Distance — метрика для оценки разнообразия и качества синтетических…

  • wikicross-layer attention

    …Используется в некоторых архитектурах (H3, RWKV) для улучшения передачи информации. ## Где встречается - [[299. Как работает attention между слоями (cross-layer…

  • wikiReformer

    # Reformer ## Определение Эффективная архитектура Transformer, использующая LSH attention (Locality-Sensitive Hashing) для аппроксимации внимания, что позволяет работать с длинными контекстами…

  • wikiH3

    # H3 ## Определение Гибридная архитектура, комбинирующая state-space модели с механизмом внимания и межслойными связями. ## Где встречается - [[299. Как работает attention…

  • wikiIndependent Draft

    # Independent Draft ## Определение Архитектура speculative decoding, где используется отдельная маленькая модель для генерации черновиков. Проста в реализации, но требует вдвое…

  • wikiunified architecture

    # unified architecture ## Определение Архитектура модели, обрабатывающая различные модальности (текст, изображения) в едином сквозном представлении без раздельных энкодеров, как в Chameleon…

  • wikiReference architecture

    # Reference architecture ## Определение Эталонная архитектура — типовое проектное решение, служащее образцом и облегчающее разработку систем за счёт проверенных практик и компонентов…

  • wikiLossless

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] ## Навигация - [[00. Индекс…

  • wikiTree attention mask

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] ## Навигация - [[00. Индекс…

  • wikiHorizontal Pod Autoscaler

    …Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…

  • wikiGPT-2 Medium

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] ## Навигация - [[00. Индекс…

  • wikiESMFold

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiLinear heads

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] ## Навигация - [[00. Индекс…

  • wikiCentralized architecture

    # Centralized architecture ## Определение Архитектура с центральным оркестратором для управления агентами ## Где встречается - [[726. Как предотвращать free-riding в multi-agent…

  • wikiRediSearch

    …Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как вы проектируете RAG для 10k RPS…

  • wikiSingle representation

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiDecentralized architecture

    # Decentralized architecture ## Определение Архитектура, в которой агенты взаимодействуют напрямую без центрального координатора. ## Где встречается - [[726. Как предотвращать free-riding в…

  • wikifail-safe architecture

    # fail-safe architecture ## Определение Отказоустойчивая архитектура (fail-safe architecture) — проектирование системы, включающее механизмы эскалации и безопасного отказа для обеспечения надёжности…

  • wikiFAPE

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiLSH attention

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…

  • wikiPAE

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiRMSD

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiEKS

    …Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как вы проектируете RAG для 10k RPS…

  • wikiOpenWebText

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[56. Реализовать diffusion…

  • wikiPairformer

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiPair representation

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiAdaptive computation time

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…

  • wikiRWKV

    # RWKV ## Определение Гибридная архитектура нейронной сети, объединяющая рекуррентные вычисления RNN с механизмом внимания Transformer, обеспечивающая линейную сложность инференса. ## Где встречается…

  • wikiESM3

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiKV cache management

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[800+ вопросов|800…

  • wikiState Space Model

    # State Space Model ## Определение Архитектура нейросети, использующая рекуррентное обновление скрытого состояния на основе модели пространства состояний. SSM-архитектуры эффективнее трансформеров…

  • wikiB200

    …Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…

  • wikiHopper GPU

    …Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…

  • wikiAlphaFold 3

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiMultiple Sequence Alignment

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiSelective state space

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…

  • wikiGPT-3

    …Какие trade-offs между разными архитектурами speculative decoding|164. Какие trade-offs между разными архитектурами speculative decoding]] - [[675. Как работает…

  • wikiPod Disruption Budgets

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiPlanner/Executor Architecture

    # Planner/Executor Architecture ## Определение Архитектура агента, где LLM-планировщик генерирует план, а исполнитель (LLM или rule-based) выполняет шаги с…

  • wikiDense connections

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах|299. Как работает attention между слоями (cross-layer attention…

  • wikiBlackwell architecture

    # Blackwell architecture ## Определение Архитектура GPU NVIDIA B200 с пятым поколением Tensor Cores и TMA (Tensor Memory Accelerator) для ускорения операций…