Knowledge Portal

aivaro.ru

  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Тесты
  • Поиск
✈Telegram @AetSeidhe
RUEN中文
…
Оглавление/Вики/low latency

low latency

low latency

Определение

Метрика, характеризующая время отклика системы; в контексте ASR и voice-агентов означает минимальную задержку при обработке запроса.

Где встречается

  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминevaluationinference

Обратные ссылки (20)

  • OpenAI vs Anthropic vs Groq vs Self-hosted — что выбираете?
  • TensorRT-LLM vs vLLM — сравнение для production deployment?
  • Индекс терминов
  • Как вы делаете multi-region failover с RTO <5 минут?
  • Как вы проектируете feature store для ML фичей, используемых LLM?
  • Как вы проектируете multi-region active-active для LLM API?
  • Как вы разворачиваете LLM в production (self-hosted)?
  • Как вы строите real-time voice agent с latency <500ms?
  • Как вы строите real-time voice agent с latency <500ms?
  • Как вы уменьшаете latency RAG-системы (время ответа)?
  • Как вы управляете контекстным окном (context window) для длинных диалогов?
  • Как работает NVLink Switch System на DGX H100?
  • Как работает attention с линейной сложностью (Linformer, Performer, Longformer)?
  • Как работает whisper.cpp для локального ASR с low latency?
  • Что такое Kafka compaction для логов LLM взаимодействий?
  • Что такое LambdaMART и как он используется для reranking в RAG?
  • Что такое Learned Index Structures for ANN? Новые подходы 2025-2026?
  • Что такое Safety & Guardrails как слой Harness? Чем runtime guardrails отличаются от тестирования?
  • Что такое adversarial prompt detection для реального времени (runtime)?
  • Что такое streaming LLM для бесконечного контекста (техника rollback)?