Поиск

wikiActive-Passive архитектура
# Active-Passive архитектура ## Определение Архитектура, в которой только основной регион активен, а резервный находится в режиме ожидания; переключение занимает несколько…
wikiActive-Active архитектура
# Active-Active архитектура ## Определение Архитектура, в которой оба региона одновременно обслуживают трафик и синхронно реплицируют данные, обеспечивая мгновенное переключение при…
wikiСобытийная архитектура
# Событийная архитектура ## Определение Архитектурный стиль, в котором компоненты системы асинхронно реагируют на события (например, через Kafka), обеспечивая real-time обработку…
wikiH3
…Как работает attention между слоями (cross-layer attention) в современных архитектурах]] - [[626. Как работают современные long-context LLM (GPT-4…
wikiHorizontal Pod Autoscaler
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
wikiESMFold
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiSingle representation
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiB200
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
wikiFAPE
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiPAE
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiRMSD
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiHopper GPU
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
wikiOpenWebText
…Какие trade-offs между разными архитектурами speculative decoding]] - [[56. Реализовать diffusion LLM (PLANNER)|56. Реализовать diffusion LLM (PLANNER)]] ## Навигация - [[00…
wikiPairformer
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiPair representation
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiState Space Model
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiPod Disruption Budgets
…Как вы деплоите LLM на spot instances в облаке]] - [[727. Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура…
wikiESM3
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiAlphaFold 3
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiMultiple Sequence Alignment
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiRWKV
…Как работает attention между слоями (cross-layer attention) в современных архитектурах]] - [[626. Как работают современные long-context LLM (GPT-4…
wikiGPT-3
…Какие trade-offs между разными архитектурами speculative decoding]] - [[675. Как работает dropout и зачем он нужен в LLM (regularization)|675…
wikiEKS
…для развертывания LLM. ## Где встречается - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как…
wikiPlanner/Executor Architecture
# Planner/Executor Architecture ## Определение Архитектура агента, где LLM-планировщик генерирует план, а исполнитель (LLM или rule-based) выполняет шаги с…
wikiL7 load balancer
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
wikidiffusion model
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiHybrid architecture
# Hybrid architecture ## Определение Архитектура, объединяющая слои Transformer и State Space Model (SSM) для достижения баланса между вычислительной эффективностью и точностью…
wikiMulti-region deployment
…Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.]] - [[418. Как вы деплоите LLM на spot instances…
wikiGlobal load balancer
…для LLM системы при сбое региона]] - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403…
wikidraft model
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
wikiLlama-3-70B
…Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] - [[156…
wikimasked language modeling
…Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…
wikiQueue length
…Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.]] - [[411. Как вы проектируете backpressure в LLM serving…
wikiD3PM
# D3PM ## Определение Одна из ключевых работ по дискретному diffusion для текста, используемая в архитектурах diffusion LLM. ## Где встречается - [[56. Реализовать…
wikiTerraform
…LLM на spot instances в облаке]] - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403…
wikiSelf-Speculative Decoding
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
wikiDiffusionBERT
# DiffusionBERT ## Определение Архитектура диффузионной языковой модели на основе BERT, генерирующая текст через итеративный процесс шумоподавления с использованием маскированного языка. ## Где…
wikiprefix caching
…batch инференсом для LLM]] - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как вы…
wikidecoder-only model
# decoder-only model ## Определение Архитектура LLM, состоящая только из декодера (например, LLaMA), типичный объект профилирования GPU. ## Где встречается - [[305. Как…
wikiCausal LM Head
…Используется как baseline для сравнения с альтернативными архитектурами (например, diffusion). ## Где встречается - [[56. Реализовать diffusion LLM (PLANNER)|56. Реализовать diffusion…
wikiresidual connections
…Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…
wikiCDNA3
# CDNA3 ## Определение Архитектура GPU AMD, требующая оптимизации под ROCm ## Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия…
wikiVLLM
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…
wikimulti-primary
# multi-primary ## Определение Архитектура, где все регионы активны и данные синхронизируются синхронно (multi-primary replication). ## Где встречается - [[414. Как вы…
wikiCockroachDB
…согласованность в multi-region архитектурах; часто используется для хранения пользовательских данных и логов в LLM-сервисах. ## Где встречается - [[247. Как…
wikiКаскад моделей
# Каскад моделей ## Определение Архитектура, в которой сначала применяется быстрая модель, и при низкой уверенности запрос передаётся более тяжёлой модели для…
wikiARM Neoverse V2
# ARM Neoverse V2 ## Определение Архитектура процессора, используемая в NVIDIA Grace CPU, требующая перекомпиляции библиотек для совместимости. ## Где встречается - [[709. NVIDIA…
wikisystolic array
# systolic array ## Определение Архитектура матричного вычислителя, в которой данные пульсируют через массив вычислительных элементов, обеспечивая высокую пропускную способность для операций…
wikiVisibility Timeout
…Применяется в архитектурах dead‑letter queues для failed LLM‑инференс запросов. ## Где встречается - [[240. Как вы проектируете dead letter queue…
wikichunked prefill
…Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…