Поиск

  • wikiLLM pipeline

    # LLM pipeline ## Определение Цепочка компонентов (RAG, кэш, модель, валидация) для обработки запроса к LLM; оценка cost-effectiveness учитывает каждый этап…

  • wikiLLM production

    # LLM production ## Определение Эксплуатация LLM в промышленной среде с требованиями к надёжности, масштабируемости и мониторингу; включает SRE-практики и управление…

  • wikiLLM-as-a-judge

    …Как вы калибруете LLM-судью под человеческие оценки|132. Как вы калибруете LLM-судью под человеческие оценки]] - [[133. Альтернативы LLM

  • wikiLLM inference

    …Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[436…

  • wikiLLMProvider

    …Как вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма|89. Как вы спроектируете систему, которая может…

  • wikiLLM logging

    # LLM logging ## Определение Практика записи всех запросов и ответов LLM с метаданными (модель, время, токены, пользователь) для аудита, отладки и…

  • wikiLLM call

    # LLM call ## Определение Отдельный запрос к языковой модели для генерации текста или принятия решения. Является базовой единицей работы в агентных…

  • wikiLLM server

    …Настроить autoscaling для LLM сервера|192. Настроить autoscaling для LLM сервера]] - [[255. Настроить correlation метрик|255. Настроить correlation метрик]] ## Навигация…

  • wikiFastAPI

    …Как вы обеспечиваете низкую задержку (500ms) для LLM|64. Как вы обеспечиваете низкую задержку (500ms) для LLM]] - [[65. Как вы…

  • wikiGateway

    # Gateway ## Определение API-шлюз, выступающий единой точкой входа для запросов к системе RAG и LLM, обеспечивающий валидацию, маршрутизацию, rate limiting…

  • wikiGrafana

    …Как вы оцениваете cost-effectiveness LLM-пайплайна|139. Как вы оцениваете cost-effectiveness LLM-пайплайна]] - [[205. Как вы деплоите LLM

  • wikiPrometheus

    # Prometheus ## Определение Система мониторинга и сбора метрик с временными рядами, широко используемая для отслеживания производительности и состояния LLM-сервисов в…

  • wikiLLM endpoint

    …Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…

  • wikiCDN

    …Как строить финансовую модель LLM-продукта для бизнеса]] - [[145. Сделать финансовую модель LLM-продукта|145. Сделать финансовую модель LLM-продукта…

  • wikiLLM Gateway

    # LLM Gateway ## Определение Система-посредник для маршрутизации запросов к разным LLM-провайдерам и моделям; позволяет оптимизировать стоимость, задержки и обеспечить…

  • wikiLLM-call classifier

    # LLM-call classifier ## Определение Классификатор (на основе LLM или лёгкой модели), который предсказывает, достаточно ли дешёвой модели для ответа или…

  • wikiMocking LLM

    # Mocking LLM ## Определение Подстановка моковых ответов LLM для интеграционных тестов, чтобы изолировать тестируемый код. ## Где встречается - [[800+ вопросов|800+ вопросов…

  • wikiVLLM

    # VLLM ## Определение Библиотека для высокопроизводительного инференса LLM, использующая Paged Attention и continuous batching для эффективного использования GPU памяти и увеличения…

  • wikiLLM-firewall

    # LLM-firewall ## Определение Компонент безопасности, фильтрующий вредоносные запросы и ответы LLM для защиты от prompt injection, jailbreak и утечки данных…

  • wikirate limiting

    # rate limiting ## Определение Механизм контроля частоты запросов к API (например, LLM провайдеров) для предотвращения превышения квот и защиты от перегрузок…

  • wikiLLM кластер

    # LLM кластер ## Определение Группа серверов для инференса LLM, развёрнутая в каждом регионе для multi-region active-active архитектуры. Обеспечивает отказоустойчивость…

  • wikiAI agents

    # AI agents ## Определение Автономные модули LLM-приложений, которые принимают решения и используют инструменты; их тестирование осложнено стохастичностью. ## Где встречается - [[80…

  • wikiLLM observability

    # LLM observability ## Определение Наблюдаемость вызовов LLM через сбор метрик, логов и трассировки для отслеживания производительности, ошибок и качества ответов; часто…

  • wikiLLM price

    # LLM price ## Определение Стоимость использования LLM, измеряемая в цене за токен; ключевая метрика для финансового моделирования и оценки эффективности кэширования…

  • wikiMock LLM

    # Mock LLM ## Определение Заглушка, возвращающая фиксированные ответы вместо вызова реальной языковой модели, используется для быстрых детерминированных тестов. ## Где встречается - [[792…

  • wikiMulti-tenant LLM serving

    # Multi-tenant LLM serving ## Определение Организация доступа нескольких команд или продуктов к LLM на общем GPU. Включает планирование запросов (scheduling…

  • wikiLLM-based detection

    # LLM-based detection ## Определение Метод мониторинга, при котором LLM анализирует поведение агентов в децентрализованной системе на предмет подозрительных паттернов (например…

  • wikiLLM evaluation metrics

    # LLM evaluation metrics ## Определение Количественные показатели для оценки качества ответов LLM, такие как точность, релевантность, уверенность. Используются для управления привилегиями…

  • wikiTensorRT-LLM

    # TensorRT-LLM ## Определение Библиотека от NVIDIA для оптимизации инференса LLM на GPU, использующая MLIR и операторные оптимизации. Обеспечивает высокую производительность…

  • wikiinference

    …Какие LLM для русского языка вы используете|78. Какие LLM для русского языка вы используете]] - [[151. Что такое тест-тайм…

  • wikiLLM chain

    # LLM chain ## Определение Архитектурный паттерн, в котором несколько вызовов LLM последовательно связаны, где выход одного служит входом для следующего. Используется…

  • wikiLLMLingua

    # LLMLingua ## Определение Метод сжатия контекста, удаляющий неважные слова с помощью LLM для уменьшения количества токенов и затрат без существенной потери…

  • wikiRedis

    …Как вы обеспечиваете низкую задержку (500ms) для LLM|64. Как вы обеспечиваете низкую задержку (500ms) для LLM]] - [[65. Как вы…

  • wikiLLM-in-the-loop

    # LLM-in-the-loop ## Определение Архитектурный паттерн, в котором LLM управляет итеративной симуляцией, переводя запросы в параметры, интерпретируя результаты и…

  • wikimultiple judges

    # multiple judges ## Определение Метод оценки с использованием нескольких LLM-судей (или экземпляров одной модели) для агрегации оценок. Позволяет снизить bias…

  • wikigraceful shutdown

    …Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[247. Как вы…

  • answerTensorRT-LLM vs vLLM — сравнение для production deployment?

    …Пример конфигурации для [[Вики/TensorRT-LLM\|TensorRT-LLM]] ```python # Пример запуска через TensorRT-LLM (упрощённо) from tensorrt_llm import LLM

  • wikiLLM-валидация

    # LLM-валидация ## Определение Процесс проверки корректности сгенерированных данных (например, вопросов) с помощью LLM, часто применяемый для контроля качества в синтетических…

  • wikiMinikube

    …Настроить autoscaling для LLM сервера|192. Настроить autoscaling для LLM сервера]] - [[202. Настроить health checks для LLM|202. Настроить health…

  • wiki503 Service Unavailable

    …Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)|65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI…

  • wikiLLM-SR

    # LLM-SR ## Определение Метод символьной регрессии (Symbolic Regression), использующий LLM для ускорения поиска математических формул, расширяя подход AI Feynman. ## Где…

  • wikiSwiGLU

    # SwiGLU ## Определение Функция активации, комбинирующая Swish и гейтинг (SwiGLU(x) = Swish(Wx+b) ⊙ (Vx+c)), используемая в современных LLM как…

  • wikiself-hosted

    …n8n, Make, Zapier — как вы интегрируете их с LLM|59. n8n, Make, Zapier — как вы интегрируете их с LLM]] - [[61…

  • wikimultimodal LLM

    # multimodal LLM ## Определение Большая языковая модель, способная принимать на вход и обрабатывать данные разных типов: текст, изображения, аудио. Преодолевает ограничение…

  • wikiLLM streaming

    …Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] - [[800…

  • wikifeature store

    …Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] - [[260. Как вы…

  • wikidiffusion LLM

    # diffusion LLM ## Определение Модель, генерирующая текст путём итеративного превращения случайного шума в последовательность токенов, что позволяет параллельную генерацию нескольких токенов…

  • wikiLLM inference cluster

    # LLM inference cluster ## Определение Кластер серверов, развёрнутых для выполнения инференса LLM, часто распределённый по регионам для низкой задержки и высокой…

  • wikiMemorization

    # Memorization ## Определение Memorization — склонность LLM точно воспроизводить уникальные последовательности из обучающих данных, что может приводить к утечке конфиденциальной информации. ## Где…

  • wikiEventually consistent

    …Как вы проектируете multi-region active-active для LLM API|247. Как вы проектируете multi-region active-active для LLM