Поиск
- wikidistributed systems
# distributed systems ## Определение Общий термин для систем, состоящих из нескольких взаимодействующих узлов; в контексте LLM unified memory может упростить обслуживание…
- wikiAI agents
…Как проектировать distributed locking для LLM agents|828. Как проектировать distributed locking для LLM agents]] - [[Практика|Практика]] - [[800+ вопросов|800…
- wikimulti-agent system
…Настроить distributed tracing|184. Настроить distributed tracing]] - [[250. Полный production агент|250. Полный production агент]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiAllReduce
…Как работает distributed optimizer в PyTorch (torch.distributed.optim)|478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)]] - [[642…
- answerКак вы дебажите медленную меж-GPU коммуникацию в multi-node инференсе?
…Профилирование с Nsight Systems Для системного анализа всего пайплайна используйте NVIDIA Nsight Systems. **Шаги:** 1. Запустите инференс с профилировщиком: ```bash…
- indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…DISTRIBUTED SYSTEMS FOR AI (DEEP) — 15 задач *Углубление [[Вики/production\|production]] AI инфраструктуры.* | # | Задача | Что нужно сделать | Признак успеха | |---|--------|-------------------|-----------------| | 191…
- answerКак вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)?
…Основные инструменты: **NVIDIA Nsight Systems (nsys)** для системного профилирования, **NVIDIA Nsight Compute (ncu)** для анализа отдельных ядер, и устаревший nvprof…
- wikiFaiss
…Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user|241. Как вы делаете distributed tracing для цепочки…
- wikiFaithfulness
…Как вы делаете distributed tracing для цепочки user → gateway → RAG → LLM → user|241. Как вы делаете distributed tracing для цепочки…
- answerЧто такое NCCL и зачем он для tensor parallelism?
…Пример инициализации [[Вики/NCCL\|NCCL]] в [[Вики/PyTorch\|PyTorch]] ```python import torch import torch.distributed as dist dist.init_process…
- answerЧто такое «agentic mesh» (сеть взаимодействующих агентов) и как вы его дебажите?
…distributed tracing [[Вики/traces\|Distributed tracing]] — это метод отслеживания запроса через все сервисы. Каждый [[Вики/Prompt engineering\|запрос]] получает уникальный…
- answerКак вы делаете агента «забывающим» (для GDPR / privacy compliance)?
…или TTL | | [[Вики/distributed systems\|Distributed systems]] | Данные могут быть реплицированы на несколько нод | Использовать distributed delete с гарантией согласованности…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить S3 consistency для RAG
…consistency models | | 42 | Distributed caching strategies | | 89 | RAG pipeline architecture | | 156 | Eventual consistency in distributed systems | | 234 | Prometheus metrics for…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать data locality scheduler
…87 | Sharding and consistent hashing | | 112 | Load balancing in distributed systems | | 201 | Network topologies and latency models | | 315 | Task scheduling…
- answerЧто такое NCCL и почему он критичен для multi-GPU инференса?
…Исторически NCCL появилась для ускорения распределённого обучения (training|distributed training), но сегодня она критична и для инференса больших моделей, когда…
- answerКак учитывать CAP theorem в AI systems?
…Как учитывать CAP theorem в AI systems? ## Краткий тезис [[Вики/CAP theorem\|CAP theorem]] (теорема Эрика Брюера) утверждает, что распределённая…
- answerЧто такое rate limiting на уровне API Gateway для LLM?
…Проблемы и best practices Проблемы - [[Вики/distributed systems\|Распределённые системы]] — если несколько экземпляров [[Вики/Gateway\|Gateway]], нужно централизованное хранилище ([[Вики…
- answerКакие есть стратегии распределённого кэширования для LLM (Redis Cluster, Memcached, Hazelcast)?
…Термин «распределённое кэширование» и его роль в LLM [[Вики/distributed cache\|Распределённое кэширование]] — это техника хранения часто запрашиваемых данных в…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить hot shard detection
…nodes | | 221 | Hot key detection in distributed cache | | 315 | Prometheus monitoring of cache systems | | 417 | Auto-scaling and rebalancing strategies…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать retry storm mitigation (exponential backoff + jitter)
…156 | Error propagation in multi-agent systems | | #200 | Timeouts and deadlines in distributed systems | | #245 | Load shedding under cascading failures…
- answerКак дебажить memory fragmentation в LLM сервере?
…записывает формы тензоров для каждой аллокации. - `[[Вики/TORCH_DISTRIBUTED_DEBUG\|TORCH_DISTRIBUTED_DEBUG]]=INFO` — [[Вики/Audit logging\|логирование]] аллокаций при…
- answerКак PCIe bottleneck проявляется в multi-GPU инференсе?
…профилирование и метрики Для обнаружения [[Вики/PCIe bottleneck\|PCIe bottleneck]] используют профилировщики: - [[Вики/nsys\|NVIDIA Nsight Systems]] — показывает временные диаграммы…
- indexОглавление
…Distributed Systems for AI *(задачи не загружены)* ### Категория 18: Inference Optimization *(задачи не загружены)* ### Категория 19: Pet-Проекты - [[Практика/Подробное…
- answerКак проектировать distributed dead letter queue для сообщений?
…Как проектировать distributed dead letter queue для сообщений? ## Краткий тезис **Dead Letter Queue (DLQ)** — это механизм изоляции сообщений, которые не…
- indexИндекс разборов
…Как учитывать CAP theorem в AI systems\|834. Как учитывать CAP theorem в AI systems?]] - [[835. Как проектировать distributed dead…
- answerКак проектировать reputation system для агентов в децентрализованной системе?
…Используются распределённые реестры (blockchain) или DHT (Distributed Hash Table). Варианты | Подход | Плюсы | Минусы | |--------|-------|--------| | **On-chain (смарт-контракт)** | Прозрачность, неизменяемость | Высокая…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить write-through cache
…data types used for caching | | 34 | Consistency models in distributed systems | | 47 | FastAPI dependency injection | | 81 | SQLAlchemy async sessions | | 103…
- wikiИндекс терминов
…distributed systems|distributed systems]] - [[Вики/Distributed task queue|Distributed task queue]] - [[Вики/Distributed tracing|Distributed tracing]] - [[Вики/distributed training|distributed…
- question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…DISTRIBUTED SYSTEMS FOR AI (20 вопросов) *Без этого вы junior в production. AI-системы — это распределенные системы.* **236. Как вы…