Batch inference
Batch inference
Определение
Объединение нескольких запросов в один пакет для повышения пропускной способности и снижения стоимости обработки, часто выполняется в фоновом режиме (ночью) на дешёвых инстансах.
Где встречается
- 134. Как вы оцениваете faithfulness RAG-ответа в production автоматически
- 139. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 148. Как вы измеряете стоимость агента в production (не только токены)
- 219. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
- 220. Как вы выбираете между online и batch инференсом для LLM
- 256. Как вы проектируете ETL пайплайн для 1M документовдень в RAG систему
- 277. Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они
- 418. Как вы деплоите LLM на spot instances в облаке
- 446. Что такое chunked prefill и зачем он нужен
- 454. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
- 455. Как вы выбираете между online и batch инференсом для LLM
- 544. Как вы строите real-time voice agent с latency 500ms
- 549. Как вы проектируете систему для real-time video understanding (поток с камеры)
- 627. Как вы тестируете long-context capability модели (бенчмарки RULER, Needle in a Haystack)
- 800+ вопросов
- 15. Настроить tiered storage (hotwarmcold)
- 54. Сравнить Hyena vs FlashAttention на 128k
- 62. Настроить MCTS для математических задач
- 169. Реализовать rollback промпта
- 206. Развернуть vLLM vs TGI, сравнить throughput
- 212. Настроить chunked prefill для long context