Knowledge Portal

aivaro.ru

  • Contents
  • Questions
  • Practice
  • Wiki
  • Tests
  • Search
✈Telegram @AetSeidhe
RUEN中文
…
Contents/Wiki/Execution time

English translation is not available yet. Showing Russian content.

Execution time

Execution time

Определение

Метрика времени выполнения задачи.

Где встречается

  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминevaluation

Обратные ссылки (52)

  • В чем разница между prefill и decode stage в LLM инференсе?
  • Индекс терминов
  • Как Harness Engineering связан с наблюдаемостью (OpenTelemetry, LangSmith, трассировка)?
  • Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)?
  • Как вы делаете active learning loop для улучшения retrieval?
  • Как вы делаете агента, который может «просить помощи» у другого агента или человека?
  • Как вы делаете асинхронную обработку long-running (>30s) LLM задач?
  • Как вы диагностируете, что проблема в memory bandwidth, а не в compute?
  • Как вы измеряете «cost of reasoning» у агента (не только токены, но и шаги, время, ошибки)?
  • Как вы комбинируете несколько языков представления в одном пайплайне?
  • Как вы ограничиваете бесконечный цикл агента?
  • Как вы проектируете промпт для long context рассуждения (CoT, ToT, GoT)?
  • Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM?
  • Как вы шифруете данные для RAG (конфиденциальность)?
  • Как делать sandboxing для agent tools (изоляция выполнения)?
  • Как измерять «коэффициент полезного делегирования» (сколько задач решено правильно)?
  • Как измерять «стоимость делегирования» (токены + время + деньги)?
  • Как код как язык представления улучшает рассуждение LLM?
  • Как оптимизировать траектории агента (trajectory optimization)?
  • Как проектировать distributed locking для LLM agents?
  • Как работает XLA (Accelerated Linear Algebra) для LLM на TPU?
  • Как работает attention с линейной сложностью (Linformer, Performer, Longformer)?
  • Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)?
  • Как работает tensor parallelism для LLM инференса? В чем отличие от pipeline parallelism?
  • Как работают CUDA streams и как они помогают оверлапить compute и communication?
  • Как тестировать агентов на недетерминированность?
  • Какие инструменты для агентской эвалюации вы используете?
  • Какие паттерны multi-agent систем вы знаете?
  • Почему 4-bit inference иногда медленнее 8-bit?
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Измерить cost делегирования
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Конвертировать датасет из JSONL в Parquet
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RED metrics для LLM
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить chaos testing для AI-агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить cost attribution per feature
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить playground для тестирования агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить prompt caching
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Протестировать multi-turn диалоги
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализация partial harnessing для AI-агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать distributed task queue для агентов
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать retry storm mitigation (exponential backoff + jitter)
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать rollback delegation
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать simulation testing для AI-агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать автоматический postmortem
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить spot vs on-demand для batch inference
  • Что такое Agent Loop и какие компоненты входят в production-ready loop?
  • Что такое Cooperative Groups в CUDA и как использовать для attention?
  • Что такое TVM (Apache TVM) и зачем он нужен для AI инференса?
  • Что такое Tool System в Harness (defineTool, registry, JSON schema validation, rate limiting)?
  • Что такое sandbox escape для AI-агента и как защититься?
  • Что такое skill libraries для агентов и как их создавать?
  • Что такое warp divergence в CUDA и как он влияет на attention?
  • Что такое «simulation testing» (тестирование в симулированной среде)?