Streaming
Streaming
Определение
Техника постепенной выдачи токенов ответа по мере их генерации, снижающая воспринимаемую задержку; часто реализуется через Server-Sent Events.
Где встречается
- 7. Как вы уменьшаете latency RAG-системы (время ответа)
- 59. n8n, Make, Zapier — как вы интегрируете их с LLM
- 64. Как вы обеспечиваете низкую задержку (500ms) для LLM
- 88. Как бы вы добавили отмену (cancellation) для длительных LLM операций
- 90. Как вы проектируете API для внешних систем, использующих вашу LLM
- 216. Как вы делаете load testing для LLM endpoint Какие метрики ключевые
- 220. Как вы выбираете между online и batch инференсом для LLM
- 549. Как вы проектируете систему для real-time video understanding (поток с камеры)
- 744. Что такое Agent Loop и какие компоненты входят в production-ready loop
- 842. Как работает prefix caching и prompt caching у провайдеров
- Практика
- 800+ вопросов
- 80. Реализовать cost attribution per feature