Knowledge Portal

aivaro.ru

  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Тесты
  • Поиск
✈Telegram @AetSeidhe
RUEN中文
…
Оглавление/Вики/Inference cost

Inference cost

Inference cost

Определение

затраты на выполнение инференса; сравнивается до и после fine-tuning для расчёта ROI

Где встречается

  • 801. Как делать AB тестирование промптов в production
  • Практика
  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминevaluationinference

Ссылки

  • Как делать A/B тестирование промптов в production?

Обратные ссылки (100)

  • EAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?
  • OpenAI vs Anthropic vs Groq vs Self-hosted — что выбираете?
  • RWKV (RNN with Transformer attention): как комбинирует RNN и attention?
  • TensorRT-LLM vs vLLM — сравнение для production deployment?
  • n8n, Make, Zapier — как вы интегрируете их с LLM?
  • Альтернативы LLM-as-Judge — назовите 3 и их ограничения?
  • В чем разница между Naive RAG, Adaptive RAG и Agentic RAG?
  • Индекс терминов
  • Как Harness Engineering связан с наблюдаемостью (OpenTelemetry, LangSmith, трассировка)?
  • Как LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
  • Как fine-tune модель для следования сложным инструкциям?
  • Как language representation связан с тест-тайм компьютингом?
  • Как speculative decoding взаимодействует с KV cache?
  • Как speculative decoding ускоряет inference? (детально)
  • Как бы вы добавили "отмену" (cancellation) для длительных LLM операций?
  • Как бы вы спроектировали multi-tenant RAG (разные компании, изолированные данные)?
  • Как вы A/B тестируете агентов в production?
  • Как вы A/B тестируете две версии промпта в production?
  • Как вы A/B тестируете две версии промпта в production?
  • Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production?
  • Как вы выбираете ANN алгоритм под ваш use case (volume, dimensionality, budget)?
  • Как вы выбираете между online и batch инференсом для LLM?
  • Как вы выбираете между online и batch инференсом для LLM?
  • Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели?
  • Как вы генерируете synthetic данные для instruction tuning?
  • Как вы дедуплицируете документы перед индексацией в RAG?
  • Как вы делаем agent with theory of mind (понимание намерений пользователя)?
  • Как вы делаете A/B тест между двумя агентами с разными архитектурами (ReAct vs Plan-and-Execute)?
  • Как вы делаете A/B тестирование двух моделей в production?
  • Как вы делаете agent с bounded rationality (ограниченные вычислительные ресурсы)?
  • Как вы делаете blue-green deployment для RAG системы с zero downtime?
  • Как вы делаете blue-green deployment для RAG системы с zero downtime?
  • Как вы делаете canary analysis для новой LLM модели?
  • Как вы делаете image captioning для RAG (извлечение описания изображения)?
  • Как вы делаете load testing для LLM endpoint? Какие метрики ключевые?
  • Как вы делаете long context для code generation (модель должна видеть весь репозиторий)?
  • Как вы делаете model selection для long context (какая модель лучше держит 100k+)?
  • Как вы делаете multi-region failover с RTO <5 минут?
  • Как вы делаете query rewriting и query expansion в RAG?
  • Как вы делаете synthetic data generation для редких классов в датасете?
  • Как вы делаете synthetic data для multi-turn диалогов (агентов)?
  • Как вы делаете synthetic data для редких языков (не английский)?
  • Как вы делаете synthetic data для сложного рассуждения (math, code)?
  • Как вы делаете video summarization для RAG (вход — длинное видео, выход — краткое описание)?
  • Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)?
  • Как вы деплоите LLM на spot instances в облаке?
  • Как вы деплоите LLM с requirement <100ms latency при throughput 1000 req/s? Архитектура.
  • Как вы детектируете и удаляете низкокачественные примеры из синтетического датасета?
  • Как вы детектируете и фиксите attention sinks в длинных контекстах?
  • Как вы защищаете LLM от prompt injection через изображения (VL-модели)?
  • Как вы защищаете LLM от градиентных атак (white-box jailbreak)?
  • Как вы защищаете LLM от градиентных атак (white-box jailbreak)?
  • Как вы защищаете multi-agent систему от вредоносного агента?
  • Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)?
  • Как вы измеряете «cost of reasoning» у агента (не только токены, но и шаги, время, ошибки)?
  • Как вы измеряете объяснимость (explainability) агентских решений?
  • Как вы измеряете стоимость (токены) агентской системы?
  • Как вы измеряете стоимость агента в production (не только токены)?
  • Как вы измеряете эффективность speculative decoding?
  • Как вы калибруете LLM-судью под человеческие оценки?
  • Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)?
  • Как вы обеспечиваете низкую задержку (<500ms) для LLM?
  • Как вы обеспечиваете, что RAG работает с документами на русском и английском одновременно?
  • Как вы обрабатываете PII в данных для RAG (GDPR, 152-ФЗ)?
  • Как вы обрабатываете production incident с LLM (playbook)?
  • Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)?
  • Как вы обрабатываете real-time фичи для LLM (например, текущий сток товара)?
  • Как вы определяете SLO и SLA для LLM сервиса?
  • Как вы отслеживаете data drift для распределения запросов к RAG?
  • Как вы оцениваете cost-effectiveness LLM-пайплайна?
  • Как вы оцениваете cost-effectiveness LLM-пайплайна?
  • Как вы оцениваете faithfulness RAG-ответа в production автоматически?
  • Как вы оцениваете reasoning capability (не просто recall) на длинном контексте?
  • Как вы оцениваете качество language representation для задачи?
  • Как вы оцениваете качество после fine-tuning?
  • Как вы оцениваете креативность LLM в production?
  • Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)?
  • Как вы передаете состояние (state) между шагами агента?
  • Как вы переключаете между уровнями представления для разных типов запросов?
  • Как вы планируете масштабирование команды вокруг LLM-системы?
  • Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами?
  • Как вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)?
  • Как вы представляете граф знаний из изображения для LLM?
  • Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал?
  • Как вы проводите red teaming LLM-приложения? Назовите 3 техники.
  • Как вы проектируете canary deployment для LLM модели?
  • Как вы проектируете feature engineering для контекста RAG (кроме текста)?
  • Как вы проектируете multi-region active-active для LLM API?
  • Как вы проектируете «планировщика» (planner) для Agentic RAG?
  • Как вы проектируете «человека в петле» для multi-agent системы с минимальным overhead?
  • Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
  • Как вы проектируете промпты, которые работают с разными моделями?
  • Как вы проектируете систему для real-time video understanding (поток с камеры)?
  • Как вы разворачиваете LLM в production (self-hosted)?
  • Как вы реализуете KV cache для 1M токенов на 8x H100?
  • Как вы реализуете streaming в production с учетом network limitations?
  • Как вы решаете проблему «lost in the middle» при работе с длинными контекстами?
  • Как вы снижаете стоимость LLM в production на 50%+?
  • Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?
  • Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)?