Поиск

  • wikiActive-Passive архитектура

    # Active-Passive архитектура ## Определение Архитектура, в которой только основной регион активен, а резервный находится в режиме ожидания; переключение занимает несколько…

  • wikiActive-Active архитектура

    # Active-Active архитектура ## Определение Архитектура, в которой оба региона одновременно обслуживают трафик и синхронно реплицируют данные, обеспечивая мгновенное переключение при…

  • wikiСобытийная архитектура

    # Событийная архитектура ## Определение Архитектурный стиль, в котором компоненты системы асинхронно реагируют на события (например, через Kafka), обеспечивая real-time обработку…

  • wikiH3

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах]] - [[626. Как работают современные long-context LLM (GPT-4…

  • wikiHorizontal Pod Autoscaler

    …Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…

  • wikiESMFold

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiSingle representation

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiB200

    …Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…

  • wikiFAPE

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiPAE

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiRMSD

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiHopper GPU

    …Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…

  • wikiOpenWebText

    …Какие trade-offs между разными архитектурами speculative decoding]] - [[56. Реализовать diffusion LLM (PLANNER)|56. Реализовать diffusion LLM (PLANNER)]] ## Навигация - [[00…

  • wikiPairformer

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiPair representation

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiState Space Model

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiPod Disruption Budgets

    …Как вы деплоите LLM на spot instances в облаке]] - [[727. Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура

  • wikiESM3

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiAlphaFold 3

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiMultiple Sequence Alignment

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiRWKV

    …Как работает attention между слоями (cross-layer attention) в современных архитектурах]] - [[626. Как работают современные long-context LLM (GPT-4…

  • wikiGPT-3

    …Какие trade-offs между разными архитектурами speculative decoding]] - [[675. Как работает dropout и зачем он нужен в LLM (regularization)|675…

  • wikiEKS

    …для развертывания LLM. ## Где встречается - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как…

  • wikiPlanner/Executor Architecture

    # Planner/Executor Architecture ## Определение Архитектура агента, где LLM-планировщик генерирует план, а исполнитель (LLM или rule-based) выполняет шаги с…

  • wikiL7 load balancer

    …Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…

  • wikidiffusion model

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiHybrid architecture

    # Hybrid architecture ## Определение Архитектура, объединяющая слои Transformer и State Space Model (SSM) для достижения баланса между вычислительной эффективностью и точностью…

  • wikiMulti-region deployment

    …Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.]] - [[418. Как вы деплоите LLM на spot instances…

  • wikiGlobal load balancer

    …для LLM системы при сбое региона]] - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403…

  • wikidraft model

    …Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…

  • wikiLlama-3-70B

    …Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] - [[156…

  • wikimasked language modeling

    …Как LLM применяются для protein folding (AlphaFold 3, ESM3) Архитектура и отличия|727. Как LLM применяются для protein folding (AlphaFold…

  • wikiQueue length

    …Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.]] - [[411. Как вы проектируете backpressure в LLM serving…

  • wikiD3PM

    # D3PM ## Определение Одна из ключевых работ по дискретному diffusion для текста, используемая в архитектурах diffusion LLM. ## Где встречается - [[56. Реализовать…

  • wikiTerraform

    LLM на spot instances в облаке]] - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403…

  • wikiSelf-Speculative Decoding

    …Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…

  • wikiDiffusionBERT

    # DiffusionBERT ## Определение Архитектура диффузионной языковой модели на основе BERT, генерирующая текст через итеративный процесс шумоподавления с использованием маскированного языка. ## Где…

  • wikiprefix caching

    …batch инференсом для LLM]] - [[403. Как вы проектируете RAG для 10k RPS с P99 latency 200ms Архитектура.|403. Как вы…

  • wikidecoder-only model

    # decoder-only model ## Определение Архитектура LLM, состоящая только из декодера (например, LLaMA), типичный объект профилирования GPU. ## Где встречается - [[305. Как…

  • wikiCausal LM Head

    …Используется как baseline для сравнения с альтернативными архитектурами (например, diffusion). ## Где встречается - [[56. Реализовать diffusion LLM (PLANNER)|56. Реализовать diffusion…

  • wikiresidual connections

    …Как работает инициализация весов в LLM (Xavier, Kaiming, почему важна)|665. Как работает инициализация весов в LLM (Xavier, Kaiming, почему…

  • wikiCDNA3

    # CDNA3 ## Определение Архитектура GPU AMD, требующая оптимизации под ROCm ## Где встречается - [[710. Бенчмаркинг LLM на AMD MI300X vs H100 различия…

  • wikiVLLM

    …Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…

  • wikimulti-primary

    # multi-primary ## Определение Архитектура, где все регионы активны и данные синхронизируются синхронно (multi-primary replication). ## Где встречается - [[414. Как вы…

  • wikiCockroachDB

    …согласованность в multi-region архитектурах; часто используется для хранения пользовательских данных и логов в LLM-сервисах. ## Где встречается - [[247. Как…

  • wikiКаскад моделей

    # Каскад моделей ## Определение Архитектура, в которой сначала применяется быстрая модель, и при низкой уверенности запрос передаётся более тяжёлой модели для…

  • wikiARM Neoverse V2

    # ARM Neoverse V2 ## Определение Архитектура процессора, используемая в NVIDIA Grace CPU, требующая перекомпиляции библиотек для совместимости. ## Где встречается - [[709. NVIDIA…

  • wikisystolic array

    # systolic array ## Определение Архитектура матричного вычислителя, в которой данные пульсируют через массив вычислительных элементов, обеспечивая высокую пропускную способность для операций…

  • wikiVisibility Timeout

    …Применяется в архитектурах dead‑letter queues для failed LLM‑инференс запросов. ## Где встречается - [[240. Как вы проектируете dead letter queue…

  • wikichunked prefill

    …Как вы деплоите LLM с requirement 100ms latency при throughput 1000 reqs Архитектура.|205. Как вы деплоите LLM с requirement…