English translation is not available yet. Showing Russian content.
cost per request
cost per request
Определение
Суммарные затраты на API LLM (токены входа/выхода) за один запрос; базовая единица затрат в юнит-экономике LLM-продукта.
Где встречается
- 109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
- 136. Как вы AB тестируете две версии промпта в production
- 149. Как спроектировать агента, который может самоисправляться (self-correction)
- 156. Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели
- 179. Как вы AB тестируете агентов в production
- 196. Как language representation связан с тест-тайм компьютингом
- 385. Как вы автоматизируете rollback при деградации качества
- 399. Как вы делаете AB тест между двумя агентами с разными архитектурами (ReAct vs Plan-and-Execute)
- 509. Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)
- 578. Что такое agent evaluation метрика successful task completion rate vs step efficiency
- 579. Как работает agent replay для улучшения качества (анализ failed траекторий)
- 584. Что такое agent distillation (обучение маленького агента на траекториях большого)
- 775. Что такое Cost Engineering для LLM-систем
- 776. Как считать TCO (Total Cost of Ownership) для RAGAgent системы
- 777. Что такое «cost per good answer» и как его измерять
- 779. Что такое «token budget» для агента и как его выставлять
- 783. Как сравнивать cost efficiency разных LLM провайдеров
- 803. Как делать canary deployment для промптов (5% трафика)
- 807. Что такое «prompt observability» (мониторинг эффективности промптов в production)
- 826. Как организовать GPU scheduling для multi-tenant LLM serving
- Практика
- 800+ вопросов
- 132. Настроить cost tracking в production
- 140. Рассчитать break-even point продукта
- 145. Сделать финансовую модель LLM-продукта