Поиск
- wikiLLM streaming
# LLM streaming ## Определение Техника инференса, позволяющая обрабатывать последовательности произвольной длины без перезапуска за счёт вытеснения старых токенов из KV cache…
- wikiStreaming
…n8n, Make, Zapier — как вы интегрируете их с LLM|59. n8n, Make, Zapier — как вы интегрируете их с LLM]] - [[64…
- wikiApache Spark Streaming
…оконной обработки streaming данных. ## Где встречается - [[262. Как вы проектируете feature store для ML фичей, используемых LLM|262. Как вы…
- wikiStreamingResponse
…Как вы проектируете API для внешних систем, использующих вашу LLM]] - [[Практика|Практика]] - [[217. Реализовать streaming с SSE|217. Реализовать streaming…
- wikiStreaming Ingestion
…Как вы проектируете feature store для ML фичей, используемых LLM|262. Как вы проектируете feature store для ML фичей, используемых…
- wikisse-starlette
…Как вы проектируете API для внешних систем, использующих вашу LLM]] - [[214. Как вы реализуете streaming в production с учетом network…
- wikiimportance scoring
# importance scoring ## Определение Критерий вытеснения токенов из кэша на основе их вклада в последующие предсказания, используемый в streaming LLM для…
- wikiEnd-to-end streaming
# End-to-end streaming ## Определение Архитектура real-time voice agent, где ASR, LLM и TTS работают в непрерывном потоке для…
- wikiSM
# SM ## Определение Аппаратный вычислительный блок GPU (Streaming Multiprocessor), содержащий warp schedulers, ALU и собственный кэш L1. На H100 и других…
- answerКак вы строите real-time voice agent с latency <500ms?
…Основные компоненты: - [[Вики/Streaming ASR\|Streaming ASR]] — преобразует аудиопоток в текст по мере поступления. - [[Вики/LLM\|LLM]] — генерирует ответ, начиная…
- wikiStreamingLLM
…Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)|626. Как работают современные long-context LLM…
- answerКак вы строите real-time voice agent с latency <500ms?
…llm_queue.put(text) buffer.clear() async def llm_worker(): while True: prompt = await llm_queue.get() # Streaming generation for…
- answerЧто такое streaming LLM для бесконечного контекста (техника rollback)?
…Что такое streaming LLM для бесконечного контекста (техника rollback)? ## Краткий тезис [[Вики/LLM streaming\|Streaming LLM]] — это подход, позволяющий языковой…
- wikiReal-time ingestion
…Как вы определяете SLO и SLA для LLM сервиса|381. Как вы определяете SLO и SLA для LLM сервиса]] - [[544…
- wikiONNX
…Как вы обрабатываете streaming данные для real-time RAG]] - [[320. Что такое ONNX Runtime и когда он выгоден для LLM…
- wikiScissorhands
…Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] ## Навигация…
- wikiCancelledError
…В контексте LLM-сервисов используется для обработки прерывания генерации при отключении клиента. ## Где встречается - [[217. Реализовать streaming с SSE|217…
- wikiKeep-alive
…Как вы реализуете streaming в production с учетом network limitations]] - [[828. Как проектировать distributed locking для LLM agents|828. Как…
- answerКак вы делаете streaming в production с учетом network limitations?
…buffer = StreamingBuffer(max_tokens=3) # Симуляция LLM с backpressure for token in simulate_llm(prompt): # Проверяем, не закрыл ли клиент…
- wikiMemGPT
…Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] - [[894…
- wikigRPC
# gRPC ## Определение Высокопроизводительный протокол удалённого вызова процедур, часто используемый для streaming API LLM и эффективной коммуникации между компонентами (например, с…
- wikiRAG orchestrator
…через LLM и возврат результата. Обеспечивает координацию всех шагов RAG-пайплайна. ## Где встречается - [[524. Как вы обрабатываете streaming данные для…
- wikiLongLoRA
…Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] ## Навигация…
- answerКак вы обрабатываете streaming данные для real-time RAG?
…Ключевое решение — использование stream processing frameworks (Flink|Apache Flink, Streaming|Structured Spark Streaming|Structured Streaming) с оконной агрегацией, инкрементальным эмбеддингом…
- wikiEventSource API
…Как вы проектируете API для внешних систем, использующих вашу LLM]] - [[214. Как вы реализуете streaming в production с учетом network…
- wikiUvicorn
…Настроить health checks для LLM]] - [[203. Реализовать retry storm mitigation|203. Реализовать retry storm mitigation]] - [[217. Реализовать streaming с SSE…
- wikiSticky sessions
…Как вы реализуете streaming в production с учетом network limitations]] - [[414. Как вы проектируете multi-region active-active для LLM…
- wikigenerator
…Обычно вызывает LLM для генерации текста. ## Где встречается - [[357. Как работает membership inference атака на LLM|357. Как работает membership…
- wikisink tokens
…Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] ## Навигация…
- wikiUPSERT
…Что такое Kafka compaction для логов LLM взаимодействий|252. Что такое Kafka compaction для логов LLM взаимодействий]] - [[256. Как вы…
- wikiGPU acceleration
# GPU acceleration ## Определение Перенос вычислений на GPU для сокращения времени генерации и инференса LLM. Применяется при работе с большими моделями…
- wikiKong
…Используется как прокси для LLM-сервисов. ## Где встречается - [[90. Как вы проектируете API для внешних систем, использующих вашу LLM|90…
- answerКак вы проектируете feature store для ML фичей, используемых LLM?
…Как вы проектируете data lineage для RAG (от документа к ответу)\|265]] | Как вы используете streaming данные в LLM-приложениях…
- wikiCurl
…для LLM]] - [[206. Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[217. Реализовать streaming с…
- wikiKafka Streams
…Как строить streaming RAG pipeline (real-time ingestion)|851. Как строить streaming RAG pipeline (real-time ingestion)]] - [[865. Как проектировать…
- wikiexactly-once delivery
…Что такое idempotency в контексте LLM API и зачем она нужна|406. Что такое idempotency в контексте LLM API и…
- wikihttpx
…Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)|65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI…
- answerКак вы проектируете API для внешних систем, использующих вашу LLM?
…модели, эндпоинту. - `llm_request_duration_seconds` (histogram) — распределение задержек. - `llm_tokens_generated_total` — затраты токенов. - `llm_streaming_ttft_seconds` — время…
- answerКак организовать streaming feature pipelines для real-time RAG?
…Как организовать streaming feature pipelines для real-time RAG? ## Краткий тезис [[Вики/Streaming\|Streaming]] [[Вики/feature\|feature]] pipelines — это системы…
- wikiPartitioning
…Как вы проектируете dead letter queue для failed LLM инференс запросов]] - [[269. Как вы обрабатываете streaming данные для real-time…
- answerКак вы обрабатываете streaming данные для real-time RAG?
…Flink, Spark Structured Streaming, Faust (Python) | | Векторный индекс | Хранилище эмбеддингов | Milvus, Qdrant, Weaviate, Pinecone | | Инференс LLM | Генерация ответа | OpenAI API…
- wikiFIFO
…Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] - [[771…
- answerКак проектировать request-response vs fire-and-forget для агентов?
…Streaming\|Server-Sent Events]], [[Вики/WebSocket\|WebSocket]]). **Термин «[[Вики/agent\|агент]]»** — программный [[Вики/Module\|модуль]], который на основе [[Вики/LLM…
- answerКак организовать feature store для AI (Feast, Hopsworks)?
…вычисляться на лету (streaming feature) и подаваться в LLM как дополнительный контекст. Архитектурная схема: ``` Пользователь -> LLM Agent -> [Вызов Action / Function…
- wikiYaRN
…Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] - [[653…
- answerКак вы реализуете streaming в production с учетом network limitations?
…Вики/LLM\|LLM]] через миллисекунды после запроса, а не ждать десятки секунд. **[[Вики/Streaming\|Server-Sent Events]] ([[Вики/Streaming\|SSE…
- wikiALiBi
…Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] - [[653…
- wikiNginx
# Nginx ## Определение Веб-сервер и обратный прокси, используемый для балансировки нагрузки, буферизации при стриминге и распределения трафика между LLM-серверами…
- wikiConsumer Lag
…Как вы проектируете dead letter queue для failed LLM инференс запросов]] - [[269. Как вы обрабатываете streaming данные для real-time…
- wikiSM occupancy
# SM occupancy ## Определение Метрика, показывающая, насколько эффективно используются вычислительные блоки GPU (SM) во время инференса LLM. Высокий occupancy критичен для…