Поиск
- wikiActive-Passive архитектура
# Active-Passive архитектура ## Определение Архитектура, в которой только основной регион активен, а резервный находится в режиме ожидания; переключение занимает несколько…
- wikiActive-Active архитектура
# Active-Active архитектура ## Определение Архитектура, в которой оба региона одновременно обслуживают трафик и синхронно реплицируют данные, обеспечивая мгновенное переключение при…
- wikiСобытийная архитектура
# Событийная архитектура ## Определение Архитектурный стиль, в котором компоненты системы асинхронно реагируют на события (например, через Kafka), обеспечивая real-time обработку…
- wikiH3
…Как работает attention между слоями (cross-layer attention) в современных архитектурах]] - [[626. Как работают современные long-context LLM (GPT-4…
- wikiHorizontal Pod Autoscaler
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
- wikiESMFold
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiSingle representation
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiB200
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
- wikiFAPE
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiPAE
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiRMSD
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiHopper GPU
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
- wikiOpenWebText
…Какие trade-offs между разными архитектурами speculative decoding]] - [[56. Реализовать diffusion LLM (PLANNER)|56. Реализовать diffusion LLM (PLANNER)]] ## Навигация - [[00…
- wikiPairformer
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiPair representation
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiState Space Model
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiPod Disruption Budgets
…Как вы деплоите LLM на spot instances в облаке]] - [[727. Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура…
- wikiESM3
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiAlphaFold 3
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiMultiple Sequence Alignment
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiRWKV
…Как работает attention между слоями (cross-layer attention) в современных архитектурах]] - [[626. Как работают современные long-context LLM (GPT-4…
- wikiGPT-3
…Какие trade-offs между разными архитектурами speculative decoding]] - [[675. Как работает dropout и зачем он нужен в LLM (regularization)|675…
- wikiEKS
…для развертывания LLM. ## Где встречается - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как…
- wikiPlanner/Executor Architecture
# Planner/Executor Architecture ## Определение Архитектура агента, где LLM-планировщик генерирует план, а исполнитель (LLM или rule-based) выполняет шаги с…
- wikiL7 load balancer
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
- wikidiffusion model
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiHybrid architecture
# Hybrid architecture ## Определение Архитектура, объединяющая слои Transformer и State Space Model (SSM) для достижения баланса между вычислительной эффективностью и точностью…
- wikiMulti-region deployment
…Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.]] - [[418. Как вы деплоите LLM на spot instances…
- wikiGlobal load balancer
…для LLM системы при сбое региона]] - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403…
- wikidraft model
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
- wikiLlama-3-70B
…Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] - [[156…
- wikimasked language modeling
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
- wikiQueue length
…Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.]] - [[411. Как вы проектируете backpressure в LLM serving…
- wikiD3PM
# D3PM ## Определение Одна из ключевых работ по дискретному diffusion для текста, используемая в архитектурах diffusion LLM. ## Где встречается - [[56. Реализовать…
- wikiTerraform
…LLM на spot instances в облаке]] - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403…
- wikiSelf-Speculative Decoding
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
- wikiDiffusionBERT
# DiffusionBERT ## Определение Архитектура диффузионной языковой модели на основе BERT, генерирующая текст через итеративный процесс шумоподавления с использованием маскированного языка. ## Где…
- wikiprefix caching
…batch инференсом для LLM]] - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как вы…
- wikidecoder-only model
# decoder-only model ## Определение Архитектура LLM, состоящая только из декодера (например, LLaMA), типичный объект профилирования GPU. ## Где встречается - [[305. Как…
- wikiCausal LM Head
…Используется как baseline для сравнения с альтернативными архитектурами (например, diffusion). ## Где встречается - [[56. Реализовать diffusion LLM (PLANNER)|56. Реализовать diffusion…
- wikiresidual connections
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
- wikiCDNA3
# CDNA3 ## Определение Архитектура GPU AMD, требующая оптимизации под ROCm ## Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия…
- wikiVLLM
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
- wikimulti-primary
# multi-primary ## Определение Архитектура, где все регионы активны и данные синхронизируются синхронно (multi-primary replication). ## Где встречается - [[414. Как вы…
- wikiCockroachDB
…согласованность в multi-region архитектурах; часто используется для хранения пользовательских данных и логов в LLM-сервисах. ## Где встречается - [[247. Как…
- wikiКаскад моделей
# Каскад моделей ## Определение Архитектура, в которой сначала применяется быстрая модель, и при низкой уверенности запрос передаётся более тяжёлой модели для…
- wikiARM Neoverse V2
# ARM Neoverse V2 ## Определение Архитектура процессора, используемая в NVIDIA Grace CPU, требующая перекомпиляции библиотек для совместимости. ## Где встречается - [[709. NVIDIA…
- wikisystolic array
# systolic array ## Определение Архитектура матричного вычислителя, в которой данные пульсируют через массив вычислительных элементов, обеспечивая высокую пропускную способность для операций…
- wikiVisibility Timeout
…Применяется в архитектурах dead‑letter queues для failed LLM‑инференс запросов. ## Где встречается - [[240. Как вы проектируете dead letter queue…
- wikichunked prefill
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…