Knowledge Portal

aivaro.ru

  • 目录
  • 问题
  • 实践
  • 百科
  • 测试
  • 搜索
✈Telegram @AetSeidhe
RUEN中文
…
目录/百科/flow

中文翻译暂不可用,显示俄语原文。

flow

flow

Определение

Тип связи в архитектуре, указывающий направление передачи данных или процесса, используется при проектировании графов знаний и пайплайнов.

Где встречается

  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминarchitecture

Обратные ссылки (56)

  • CrewAI vs AutoGen vs LangGraph — сравнение?
  • В чем проблема «natural language bottleneck» для LLM?
  • Индекс терминов
  • Как вы делаете incremental ingestion для часто меняющихся документов?
  • Как вы делаете агента "отказоустойчивым" (graceful degradation)?
  • Как вы делаете асинхронную обработку long-running (>30s) LLM задач?
  • Как вы деплоите LLM на spot instances в облаке?
  • Как вы индексируете видео-контент в RAG-системе?
  • Как вы обеспечиваете низкую задержку (<500ms) для LLM?
  • Как вы обрабатываете streaming данные для real-time RAG?
  • Как вы обрабатываете streaming данные для real-time RAG?
  • Как вы оптимизируете embedding генерацию для большого количества документов?
  • Как вы представляете граф знаний из изображения для LLM?
  • Как вы проектируете Harness для mission-critical приложения? Приведите пример с агентом для банковских переводов.
  • Как вы проектируете backpressure в LLM serving системе?
  • Как вы проектируете backpressure в LLM serving системе?
  • Как вы проектируете систему для real-time video understanding (поток с камер)?
  • Как вы реализуете streaming в production с учетом network limitations?
  • Как вы тестируете RAG-систему на новых документах без реальных пользователей?
  • Как проектировать CDC (Change Data Capture) для документов?
  • Как проектировать distributed dead letter queue для сообщений?
  • Как проектировать graceful degradation при отказе LLM API?
  • Как проектировать request-response vs fire-and-forget для агентов?
  • Как работает OCR для RAG? Недостатки и когда его недостаточно?
  • Как работает attention между слоями (cross-layer attention) в современных архитектурах?
  • Как работает speculative execution на GPU для LLM (branch prediction)?
  • Как работает нормализация перед attention (pre-norm) vs после (post-norm)?
  • Как работают CUDA streams и как они помогают оверлапить compute и communication?
  • Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс?
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с cost tracking
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать postmortem для cache stampede
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить Guardrails на NeMo
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить TTL для semantic cache
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить cost tracking в production
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить distributed DLQ для failed инференса
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить rate limiting на сообщения между агентами
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить recurrent memory для long context
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить retrieval quality dashboard
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить гибридную архитектуру Mamba + Attention для улучшения качества языковой модели
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настройка tail latency amplification мониторинга (p99/p50)
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть message bus (NATS/Kafka)
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать compaction в векторной БД
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать streaming с SSE в FastAPI для меж-агентной коммуникации
  • Что вы сделаете в первую неделю на новой работе Senior AI Engineer?
  • Что такое Cooperative Groups в CUDA и как использовать для attention?
  • Что такое MLIR и как он используется в IREE/TensorRT-LLM?
  • Что такое Partial Harnessing (частичное управление)?
  • Что такое Session Management в Harness и какие стратегии (TTL, LRU, GC)?
  • Что такое SwiGLU и почему он используется вместо ReLU в современных LLM?
  • Что такое bank conflicts в shared memory и как их избежать?
  • Что такое circuit breaker и как он применяется к LLM API вызовам?
  • Что такое model cards и system cards и как их составлять?
  • Что такое residual stream и как он связан с информационным потоком в трансформере?
  • Что такое warp divergence в CUDA и как он влияет на attention?
  • Что такое «message bus» для агентов (Kafka, NATS, Redis PubSub)?
  • Что такое «prompt linting» (статический анализ промптов)?