Поиск

  • wikiLLM streaming

    # LLM streaming ## Определение Техника инференса, позволяющая обрабатывать последовательности произвольной длины без перезапуска за счёт вытеснения старых токенов из KV cache…

  • wikiStreaming

    …n8n, Make, Zapier — как вы интегрируете их с LLM|59. n8n, Make, Zapier — как вы интегрируете их с LLM]] - [[64…

  • wikiApache Spark Streaming

    …оконной обработки streaming данных. ## Где встречается - [[262. Как вы проектируете feature store для ML фичей, используемых LLM|262. Как вы…

  • wikiStreamingResponse

    …Как вы проектируете API для внешних систем, использующих вашу LLM]] - [[Практика|Практика]] - [[217. Реализовать streaming с SSE|217. Реализовать streaming

  • wikiStreaming Ingestion

    …Как вы проектируете feature store для ML фичей, используемых LLM|262. Как вы проектируете feature store для ML фичей, используемых…

  • wikisse-starlette

    …Как вы проектируете API для внешних систем, использующих вашу LLM]] - [[214. Как вы реализуете streaming в production с учетом network…

  • wikiimportance scoring

    # importance scoring ## Определение Критерий вытеснения токенов из кэша на основе их вклада в последующие предсказания, используемый в streaming LLM для…

  • wikiEnd-to-end streaming

    # End-to-end streaming ## Определение Архитектура real-time voice agent, где ASR, LLM и TTS работают в непрерывном потоке для…

  • wikiSM

    # SM ## Определение Аппаратный вычислительный блок GPU (Streaming Multiprocessor), содержащий warp schedulers, ALU и собственный кэш L1. На H100 и других…

  • answerКак вы строите real-time voice agent с latency <500ms?

    …Основные компоненты: - [[Вики/Streaming ASR\|Streaming ASR]] — преобразует аудиопоток в текст по мере поступления. - [[Вики/LLM\|LLM]] — генерирует ответ, начиная…

  • wikiStreamingLLM

    …Как работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)|626. Как работают современные long-context LLM

  • answerКак вы строите real-time voice agent с latency <500ms?

    llm_queue.put(text) buffer.clear() async def llm_worker(): while True: prompt = await llm_queue.get() # Streaming generation for…

  • answerЧто такое streaming LLM для бесконечного контекста (техника rollback)?

    …Что такое streaming LLM для бесконечного контекста (техника rollback)? ## Краткий тезис [[Вики/LLM streaming\|Streaming LLM]] — это подход, позволяющий языковой…

  • wikiReal-time ingestion

    …Как вы определяете SLO и SLA для LLM сервиса|381. Как вы определяете SLO и SLA для LLM сервиса]] - [[544…

  • wikiONNX

    …Как вы обрабатываете streaming данные для real-time RAG]] - [[320. Что такое ONNX Runtime и когда он выгоден для LLM

  • wikiScissorhands

    …Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] ## Навигация…

  • wikiCancelledError

    …В контексте LLM-сервисов используется для обработки прерывания генерации при отключении клиента. ## Где встречается - [[217. Реализовать streaming с SSE|217…

  • wikiKeep-alive

    …Как вы реализуете streaming в production с учетом network limitations]] - [[828. Как проектировать distributed locking для LLM agents|828. Как…

  • answerКак вы делаете streaming в production с учетом network limitations?

    …buffer = StreamingBuffer(max_tokens=3) # Симуляция LLM с backpressure for token in simulate_llm(prompt): # Проверяем, не закрыл ли клиент…

  • wikiMemGPT

    …Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] - [[894…

  • wikigRPC

    # gRPC ## Определение Высокопроизводительный протокол удалённого вызова процедур, часто используемый для streaming API LLM и эффективной коммуникации между компонентами (например, с…

  • wikiRAG orchestrator

    …через LLM и возврат результата. Обеспечивает координацию всех шагов RAG-пайплайна. ## Где встречается - [[524. Как вы обрабатываете streaming данные для…

  • wikiLongLoRA

    …Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] ## Навигация…

  • answerКак вы обрабатываете streaming данные для real-time RAG?

    …Ключевое решение — использование stream processing frameworks (Flink|Apache Flink, Streaming|Structured Spark Streaming|Structured Streaming) с оконной агрегацией, инкрементальным эмбеддингом…

  • wikiEventSource API

    …Как вы проектируете API для внешних систем, использующих вашу LLM]] - [[214. Как вы реализуете streaming в production с учетом network…

  • wikiUvicorn

    …Настроить health checks для LLM]] - [[203. Реализовать retry storm mitigation|203. Реализовать retry storm mitigation]] - [[217. Реализовать streaming с SSE…

  • wikiSticky sessions

    …Как вы реализуете streaming в production с учетом network limitations]] - [[414. Как вы проектируете multi-region active-active для LLM

  • wikigenerator

    …Обычно вызывает LLM для генерации текста. ## Где встречается - [[357. Как работает membership inference атака на LLM|357. Как работает membership…

  • wikisink tokens

    …Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] ## Навигация…

  • wikiUPSERT

    …Что такое Kafka compaction для логов LLM взаимодействий|252. Что такое Kafka compaction для логов LLM взаимодействий]] - [[256. Как вы…

  • wikiGPU acceleration

    # GPU acceleration ## Определение Перенос вычислений на GPU для сокращения времени генерации и инференса LLM. Применяется при работе с большими моделями…

  • wikiKong

    …Используется как прокси для LLM-сервисов. ## Где встречается - [[90. Как вы проектируете API для внешних систем, использующих вашу LLM|90…

  • answerКак вы проектируете feature store для ML фичей, используемых LLM?

    …Как вы проектируете data lineage для RAG (от документа к ответу)\|265]] | Как вы используете streaming данные в LLM-приложениях…

  • wikiCurl

    …для LLM]] - [[206. Развернуть vLLM vs TGI, сравнить throughput|206. Развернуть vLLM vs TGI, сравнить throughput]] - [[217. Реализовать streaming с…

  • wikiKafka Streams

    …Как строить streaming RAG pipeline (real-time ingestion)|851. Как строить streaming RAG pipeline (real-time ingestion)]] - [[865. Как проектировать…

  • wikiexactly-once delivery

    …Что такое idempotency в контексте LLM API и зачем она нужна|406. Что такое idempotency в контексте LLM API и…

  • wikihttpx

    …Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)|65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI…

  • answerКак вы проектируете API для внешних систем, использующих вашу LLM?

    …модели, эндпоинту. - `llm_request_duration_seconds` (histogram) — распределение задержек. - `llm_tokens_generated_total` — затраты токенов. - `llm_streaming_ttft_seconds` — время…

  • answerКак организовать streaming feature pipelines для real-time RAG?

    …Как организовать streaming feature pipelines для real-time RAG? ## Краткий тезис [[Вики/Streaming\|Streaming]] [[Вики/feature\|feature]] pipelines — это системы…

  • wikiPartitioning

    …Как вы проектируете dead letter queue для failed LLM инференс запросов]] - [[269. Как вы обрабатываете streaming данные для real-time…

  • answerКак вы обрабатываете streaming данные для real-time RAG?

    …Flink, Spark Structured Streaming, Faust (Python) | | Векторный индекс | Хранилище эмбеддингов | Milvus, Qdrant, Weaviate, Pinecone | | Инференс LLM | Генерация ответа | OpenAI API…

  • wikiFIFO

    …Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] - [[771…

  • answerКак проектировать request-response vs fire-and-forget для агентов?

    Streaming\|Server-Sent Events]], [[Вики/WebSocket\|WebSocket]]). **Термин «[[Вики/agent\|агент]]»** — программный [[Вики/Module\|модуль]], который на основе [[Вики/LLM

  • answerКак организовать feature store для AI (Feast, Hopsworks)?

    …вычисляться на лету (streaming feature) и подаваться в LLM как дополнительный контекст. Архитектурная схема: ``` Пользователь -> LLM Agent -> [Вызов Action / Function…

  • wikiYaRN

    …Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] - [[653…

  • answerКак вы реализуете streaming в production с учетом network limitations?

    …Вики/LLM\|LLM]] через миллисекунды после запроса, а не ждать десятки секунд. **[[Вики/Streaming\|Server-Sent Events]] ([[Вики/Streaming\|SSE…

  • wikiALiBi

    …Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] - [[653…

  • wikiNginx

    # Nginx ## Определение Веб-сервер и обратный прокси, используемый для балансировки нагрузки, буферизации при стриминге и распределения трафика между LLM-серверами…

  • wikiConsumer Lag

    …Как вы проектируете dead letter queue для failed LLM инференс запросов]] - [[269. Как вы обрабатываете streaming данные для real-time…

  • wikiSM occupancy

    # SM occupancy ## Определение Метрика, показывающая, насколько эффективно используются вычислительные блоки GPU (SM) во время инференса LLM. Высокий occupancy критичен для…