Knowledge Portal

aivaro.ru

  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Тесты
  • Поиск
✈Telegram @AetSeidhe
RUEN中文
…
Оглавление/Вики/performance

performance

performance

Определение

Характеристика скорости и эффективности работы системы, часто измеряемая через latency, throughput и использование ресурсов при фиксированной модели.

Где встречается

  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминevaluation

Обратные ссылки (76)

  • LangChain vs LlamaIndex vs Haystack — что выберете и почему?
  • RWKV (RNN with Transformer attention): как комбинирует RNN и attention?
  • TensorRT-LLM vs vLLM — сравнение для production deployment?
  • n8n, Make, Zapier — как вы интегрируете их с LLM?
  • Индекс терминов
  • Инициализация транзакционного продюсера
  • Как fine-tune модель для следования сложным инструкциям?
  • Как бы вы спроектировали multi-tenant RAG (разные компании, изолированные данные)?
  • Как бы вы спроектировали систему для реального времени (real-time) обработки документов?
  • Как вы A/B тестируете агентов в production?
  • Как вы A/B тестируете две версии промпта в production?
  • Как вы делаете A/B тест между двумя агентами с разными архитектурами (ReAct vs Plan-and-Execute)?
  • Как вы делаете disaster recovery с RPO <1 минута?
  • Как вы делаете distributed tracing для цепочки: user → gateway → RAG → LLM → user?
  • Как вы делаете retrieval для структурированных данных (SQL, Knowledge Graph)?
  • Как вы деплоите LLM с TensorRT-LLM в production?
  • Как вы деплоите policy (RLHF модель) в production с online feedback loop?
  • Как вы загружаете 1000 документов в RAG максимально эффективно?
  • Как вы измеряете reasoning degradation с ростом контекста? (curse of length)
  • Как вы передаете состояние (state) между шагами агента?
  • Как вы проектируете API для внешних систем, использующих вашу LLM?
  • Как вы проектируете canary deployment для LLM модели?
  • Как вы проектируете data lineage для RAG (от документа к ответу)?
  • Как вы реализуете KV cache для 1M токенов на 8x H100?
  • Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
  • Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM?
  • Как выглядит process operational excellence в Harness Engineering (ORR, Operational Reviews)?
  • Как делать sandboxing для agent tools (изоляция выполнения)?
  • Как организовать data versioning (DVC, LakeFS, Delta Lake)?
  • Как проектировать distributed locking для LLM agents?
  • Как проектировать graceful degradation при отказе vector DB?
  • Как проектировать rate limiting на уровне сообщений?
  • Как работает FP8 quantization на H100 (Transformer Engine)?
  • Как работает FlashAttention для training (не только inference)?
  • Как работает FlashAttention-3 технически? Чем отличается от FA2?
  • Как работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?
  • Как работает Mamba (State Space Model) и чем она лучше трансформера?
  • Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100?
  • Как работает XLA (Accelerated Linear Algebra) для LLM на TPU?
  • Как работает vision encoder в GPT-4V / LLaVA?
  • Как работает извлечение знаний (knowledge editing) из LLM без переобучения?
  • Как работает многогранный (faceted) поиск в RAG с фильтрами?
  • Как работают Tensor Cores в H100/B200 и для чего они нужны?
  • Как спроектировать агента, который может выполнять цепочку из 5-10 действий?
  • Как устроена Memory в Harness (in-memory, fs, vector stores, relay)?
  • Какие протоколы меж-агентской коммуникации существуют (A2A, MCP, OpenAI swarm)?
  • Когда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?
  • Почему 4-bit inference иногда медленнее 8-bit?
  • Почему decode stage плохо batchится?
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать test plan для агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить GPU scheduling для multi-tenant
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить InfiniBand partition keys
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить mmap для embeddings
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать NUMA влияние на latency
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть NCCL бенчмарк на 2-8 GPU
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать WAL для векторной БД
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать prompt linting
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить S3 vs EBS для checkpoint'ов 70B
  • Что такое Chain-of-Thought без токенов (latent CoT) и как это реализовано?
  • Что такое Cooperative Groups в CUDA и как использовать для attention?
  • Что такое Filtered ANN Search и как оно реализовано в Qdrant vs Weaviate?
  • Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
  • Что такое Layout-Aware Chunking и как он связан с мультимодальностью?
  • Что такое MIG (Multi-Instance GPU) и как настроить для разных LLM?
  • Что такое MIG (Multi-Instance GPU) и когда он полезен для LLM?
  • Что такое Model Poisoning в контексте RAG и как защититься?
  • Что такое NCCL и почему он критичен для multi-GPU инференса?
  • Что такое SLI (Service Level Indicators) для AI системы и как их собирать?
  • Что такое TVM (Apache TVM) и зачем он нужен для AI инференса?
  • Что такое benchmark contamination и как ее детектировать?
  • Что такое model cards и system cards и как их составлять?
  • Что такое planner/executor architecture для агентов и когда она нужна?
  • Что такое rate limiting на разных уровнях (user, API key, IP, global) и как реализовать?
  • Что такое warp divergence в CUDA и как он влияет на attention?
  • Что такое «message bus» для агентов (Kafka, NATS, Redis PubSub)?
  • Что такое «message schema evolution» (Avro/Protobuf)?