Поиск
- wikiinter-agent messages
# inter-agent messages ## Определение Обмен сообщениями между агентами в multi-agent системе, реализуемый через message bus (NATS/Kafka) или actor…
- wikiCommunication overhead explosion
# Communication overhead explosion ## Определение Ситуация, когда коммуникационные издержки между компонентами системы (например, агентами или GPU) растут квадратично или становятся узким…
- wikiCompute/communication ratio
# Compute/communication ratio ## Определение Отношение объема вычислений к объему переданных данных. Используется для выбора оптимальной стратегии параллелизма, например, tensor parallelism…
- wikiAgent Communication Protocol
# Agent Communication Protocol ## Определение Стандартизированный формат обмена сообщениями между агентами в мульти-агентных системах. ## Где встречается - [[800+ вопросов|800+ вопросов…
- wikilocal communication
# local communication ## Определение Локальная коммуникация между агентами, при которой каждый агент обменивается данными только с соседями в радиусе восприятия. ## Где…
- wikiInter-agent communication system
# Inter-agent communication system ## Определение Система, позволяющая агентам обмениваться сообщениями для координации; требует мониторинга для отладки и анализа. ## Где встречается…
- wikicompute-communication overlap
# compute-communication overlap ## Определение Техника ускорения за счёт параллельного выполнения вычислений и передачи данных на GPU с использованием CUDA streams…
- wikiCommunication rounds
# Communication rounds ## Определение Метрика, измеряющая количество раундов обмена сообщениями между агентами, используемая для оценки накладных расходов на координацию. ## Где встречается…
- wikiCompute/Communication overlap
# Compute/Communication overlap ## Определение Доля времени, в течение которого GPU выполняет вычисления одновременно с передачей данных. Малое значение указывает на…
- wikiall-to-all communication
# all-to-all communication ## Определение Коммуникационный паттерн, при котором каждый узел отправляет данные каждому другому узлу; используется в expert parallelism…
- wikiACME
# ACME ## Определение Agent Communication Message Encoding — формат сообщений на базе JSON-LD для семантической совместимости между агентами. ## Где встречается - [[810…
- wikiDefault stream
…Как работают CUDA streams и как они помогают оверлапить compute и communication|308. Как работают CUDA streams и как они…
- wikiConcurrent kernels
…Как работают CUDA streams и как они помогают оверлапить compute и communication|308. Как работают CUDA streams и как они…
- wikiCUDA events
…Как работают CUDA streams и как они помогают оверлапить compute и communication|308. Как работают CUDA streams и как они…
- wikiRCCL
# RCCL ## Определение Библиотека коллективных коммуникаций для GPU AMD, аналог NCCL, используемая для распределённого обучения. ## Где встречается - [[710. Бенчмаркинг LLM на…
- wikiDMA engine
…Как работают CUDA streams и как они помогают оверлапить compute и communication|308. Как работают CUDA streams и как они…
- wikiMPS
…Как работают CUDA streams и как они помогают оверлапить compute и communication|308. Как работают CUDA streams и как они…
- wikiPinned memory
…Как работают CUDA streams и как они помогают оверлапить compute и communication|308. Как работают CUDA streams и как они…
- wikiPoint-to-point communication
# Point-to-point communication ## Определение Коммуникация между двумя узлами напрямую без посредников; используется для передачи данных между соседними стадиями пайплайна…
- wikiCUDA streams
…Использование нескольких concurrent streams даёт возможность оверлапить compute и communication, что критично для инференса в реальном времени. ## Где встречается - [[308…
- wikiunified memory
…Как работают CUDA streams и как они помогают оверлапить compute и communication|308. Как работают CUDA streams и как они…
- wikiCUDA graphs
…Как работают CUDA streams и как они помогают оверлапить compute и communication|308. Как работают CUDA streams и как они…
- wikikernel computation
# kernel computation ## Определение Вычисления на GPU, организуемые в CUDA streams для перекрытия compute и communication. Подход повышает утилизацию GPU за…
- wikiколлективные коммуникации
# коллективные коммуникации ## Определение Обобщённые операции обмена данными, такие как allreduce, allgather, используемые для синхронизации градиентов при распределённом обучении моделей. ## Где…
- wikichannel
# channel ## Определение Способ доставки уведомления оператору при эскалации, например, email, Slack, дашборд или API. ## Где встречается - [[762. Что такое «эскалация…
- wikinsys
…Как работают CUDA streams и как они помогают оверлапить compute и communication|308. Как работают CUDA streams и как они…
- wikiInformation loss between agents
# Information loss between agents ## Определение Information loss between agents (потеря информации между агентами) — уникальный failure mode мультиагентных систем, при котором…
- wikiWebRTC
# WebRTC ## Определение Протокол для peer-to-peer передачи аудио и видео с низкой задержкой (через UDP). Используется для real-time…
- answerЧто такое agent communication protocol (формат сообщений между агентами)?
…Что такое agent communication protocol (формат сообщений между агентами)? ## Краткий тезис [[Вики/Agent Communication Protocol\|Agent communication protocol]] — это стандартизированный…
- wikincu
…Как работают CUDA streams и как они помогают оверлапить compute и communication|308. Как работают CUDA streams и как они…
- answerКакие failure modes уникальны для multi-agent систем (vs single agent)?
…Communication overhead explosion **Communication overhead explosion** — квадратичный рост числа сообщений при увеличении числа агентов. В полносвязной топологии каждый агент общается…
- answerКогда tensor parallelism хуже pipeline parallelism?
…Подход PP требует лишь [[Вики/Point-to-point communication\|point-to-point]] коммуникации ([[Вики/Point-to-point communication\|send/recv…
- answerЧто такое expert parallelism для MoE моделей (Mixtral)?
…Недостатки и вызовы - [[Вики/Communication overhead explosion\|Communication overhead]]: [[Вики/all-to-all communication\|all-to-all]] коммуникации на каждом…
- answerЧто такое NCCL и почему он критичен для multi-GPU инференса?
…Для этого используются операции [[Вики/Point-to-point communication\|send/recv]] ([[Вики/Point-to-point communication\|point-to-point]]). [[Вики…
- wikiPipeline parallelism
…Как работают CUDA streams и как они помогают оверлапить compute и communication|308. Как работают CUDA streams и как они…
- wikiNCCL
# NCCL ## Определение Библиотека NVIDIA для коллективных коммуникаций между GPU, критичная для multi-GPU инференса и обучения. ## Где встречается - [[307. Как…
- answerКак PCIe bottleneck проявляется в multi-GPU инференсе?
…Как работают CUDA streams и как они помогают оверлапить compute и communication\|308]] | Что такое NVSwitch и как он ускоряет…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить monitoring сообщений в системе inter-agent communication
…Настроить monitoring сообщений в системе inter-agent communication ## 1. Цель задачи Сконфигурировать сбор и визуализацию ключевых метрик обмена сообщениями между…
- answerКакие протоколы меж-агентской коммуникации существуют (A2A, MCP, OpenAI swarm)?
…Основные существующие протоколы: **[[Вики/all-to-all communication\|A2A]] ([[Вики/A2A\|Agent2Agent]])** от Google (открытый протокол для [[Вики/discovery\|discovery…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить multi-region active-passive для inter-agent communication
…Настроить multi-region active-passive для inter-agent communication ## 1. Цель задачи Научиться проектировать и реализовывать отказоустойчивую архитектуру для общения…
- answerЧто такое emergent specialization в multi-agent systems (агенты сами распределяют роли)?
…для каждой роли (retrieval, analysis, generation) считается, какой агент выполняет её лучше всего. - [[Вики/Communication overhead explosion\|Communication overhead]] (накладные…
- answerЧто такое NCCL и зачем он для tensor parallelism?
…Что такое NCCL и зачем он для tensor parallelism? ## Краткий тезис **[[Вики/NCCL\|NCCL]] ([[Вики/NCCL\|NVIDIA Collective Communications Library…
- answerКак работают CUDA streams и как они помогают оверлапить compute и communication?
…Как работают CUDA streams и как они помогают оверлапить compute и communication? ## Краткий тезис [[Вики/CUDA streams\|CUDA streams]] — это…
- answerЧто такое 3D parallelism (data + tensor + pipeline)?
…PP требует передачи промежуточных активаций между стадиями (через [[Вики/Point-to-point communication\|p2p]] коммуникацию: [[Вики/Point-to-point communication…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить NVLink topology для 8× GPU
…Ключевой результат Каждая из 8 [[Вики/GPU\|GPU]] получает прямой NVLink-доступ ([[Вики/Point-to-point communication\|peer access]]) ко…
- answerЧто такое kernel fusion и как он применяется в LLM serving?
…Как работают CUDA streams и как они помогают оверлапить compute и communication\|308]] | Quantization (квантизация) для ускорения | | [[310. Как вы…
- answerКак вы делаете agent with iterative refinement (улучшение ответа через обратную связь)?
…Что такое agent communication protocol (формат сообщений между агентами)\|591]] | Multi-agent системы: координация нескольких агентов | | [[593. Как работает agent…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать тесты для меж-агентской коммуникации
…Написать тест `test_send_message`: - регистрируем агента-получателя `receiver_agent` - отправляем сообщение через `message_bus.[[Вики/Point-to-point communication…
- answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?
…Формула коммуникационных затрат (приблизительно): ``` Communication_time ≈ 2 * (hidden_size / TP) * (число слоёв) / bandwidth ``` Коэффициент 2 из-за [[Вики/AllReduce\|all…
- answerКак работает NVLink Switch System на DGX H100?
…NCCL и NVLink [[Вики/NCCL\|NCCL]] (NVIDIA Collective Communications Library) — библиотека, реализующая коллективные операции (all-reduce, all-gather, reduce-scatter…