Поиск

wikiLLM pipeline
# LLM pipeline ## Определение Цепочка компонентов (RAG, кэш, модель, валидация) для обработки запроса к LLM; оценка cost-effectiveness учитывает каждый этап…
wikiLLM production
# LLM production ## Определение Эксплуатация LLM в промышленной среде с требованиями к надёжности, масштабируемости и мониторингу; включает SRE-практики и управление…
wikiLLM-as-a-judge
…Как вы калибруете LLM-судью под человеческие оценки|132. Как вы калибруете LLM-судью под человеческие оценки]] - [[133. Альтернативы LLM…
wikiLLM inference
…Почему LLM inference memory-bound, а не compute-bound|431. Почему LLM inference memory-bound, а не compute-bound]] - [[436…
wikiLLMProvider
…Как вы спроектируете систему, которая может переключаться между разными LLM провайдерами без даунтайма|89. Как вы спроектируете систему, которая может…
wikiLLM logging
# LLM logging ## Определение Практика записи всех запросов и ответов LLM с метаданными (модель, время, токены, пользователь) для аудита, отладки и…
wikiLLM call
# LLM call ## Определение Отдельный запрос к языковой модели для генерации текста или принятия решения. Является базовой единицей работы в агентных…
wikiLLM server
…Настроить autoscaling для LLM сервера|192. Настроить autoscaling для LLM сервера]] - [[255. Настроить correlation метрик|255. Настроить correlation метрик]] ## Навигация…
wikiFastAPI
…Как вы обеспечиваете низкую задержку (500ms) для LLM|64. Как вы обеспечиваете низкую задержку (500ms) для LLM]] - [[65. Как вы…
wikiGateway
# Gateway ## Определение API-шлюз, выступающий единой точкой входа для запросов к системе RAG и LLM, обеспечивающий валидацию, маршрутизацию, rate limiting…
wikiGrafana
…Как вы оцениваете cost-effectiveness LLM-пайплайна|139. Как вы оцениваете cost-effectiveness LLM-пайплайна]] - [[205. Как вы деплоите LLM…
wikiPrometheus
# Prometheus ## Определение Система мониторинга и сбора метрик с временными рядами, широко используемая для отслеживания производительности и состояния LLM-сервисов в…
wikiLLM endpoint
…Как вы делаете load testing для LLM endpoint Какие метрики ключевые|216. Как вы делаете load testing для LLM endpoint…
wikiCDN
…Как строить финансовую модель LLM-продукта для бизнеса]] - [[145. Сделать финансовую модель LLM-продукта|145. Сделать финансовую модель LLM-продукта…
wikiLLM Gateway
# LLM Gateway ## Определение Система-посредник для маршрутизации запросов к разным LLM-провайдерам и моделям; позволяет оптимизировать стоимость, задержки и обеспечить…
wikiLLM-call classifier
# LLM-call classifier ## Определение Классификатор (на основе LLM или лёгкой модели), который предсказывает, достаточно ли дешёвой модели для ответа или…
wikiMocking LLM
# Mocking LLM ## Определение Подстановка моковых ответов LLM для интеграционных тестов, чтобы изолировать тестируемый код. ## Где встречается - [[800+ вопросов|800+ вопросов…
wikiVLLM
# VLLM ## Определение Библиотека для высокопроизводительного инференса LLM, использующая Paged Attention и continuous batching для эффективного использования GPU памяти и увеличения…
wikiLLM-firewall
# LLM-firewall ## Определение Компонент безопасности, фильтрующий вредоносные запросы и ответы LLM для защиты от prompt injection, jailbreak и утечки данных…
wikirate limiting
# rate limiting ## Определение Механизм контроля частоты запросов к API (например, LLM провайдеров) для предотвращения превышения квот и защиты от перегрузок…
wikiLLM кластер
# LLM кластер ## Определение Группа серверов для инференса LLM, развёрнутая в каждом регионе для multi-region active-active архитектуры. Обеспечивает отказоустойчивость…
wikiAI agents
# AI agents ## Определение Автономные модули LLM-приложений, которые принимают решения и используют инструменты; их тестирование осложнено стохастичностью. ## Где встречается - [[80…
wikiLLM observability
# LLM observability ## Определение Наблюдаемость вызовов LLM через сбор метрик, логов и трассировки для отслеживания производительности, ошибок и качества ответов; часто…
wikiLLM price
# LLM price ## Определение Стоимость использования LLM, измеряемая в цене за токен; ключевая метрика для финансового моделирования и оценки эффективности кэширования…
wikiMock LLM
# Mock LLM ## Определение Заглушка, возвращающая фиксированные ответы вместо вызова реальной языковой модели, используется для быстрых детерминированных тестов. ## Где встречается - [[792…
wikiMulti-tenant LLM serving
# Multi-tenant LLM serving ## Определение Организация доступа нескольких команд или продуктов к LLM на общем GPU. Включает планирование запросов (scheduling…
wikiLLM-based detection
# LLM-based detection ## Определение Метод мониторинга, при котором LLM анализирует поведение агентов в децентрализованной системе на предмет подозрительных паттернов (например…
wikiLLM evaluation metrics
# LLM evaluation metrics ## Определение Количественные показатели для оценки качества ответов LLM, такие как точность, релевантность, уверенность. Используются для управления привилегиями…
wikiTensorRT-LLM
# TensorRT-LLM ## Определение Библиотека от NVIDIA для оптимизации инференса LLM на GPU, использующая MLIR и операторные оптимизации. Обеспечивает высокую производительность…
wikiinference
…Какие LLM для русского языка вы используете|78. Какие LLM для русского языка вы используете]] - [[151. Что такое тест-тайм…
wikiLLM chain
# LLM chain ## Определение Архитектурный паттерн, в котором несколько вызовов LLM последовательно связаны, где выход одного служит входом для следующего. Используется…
wikiLLMLingua
# LLMLingua ## Определение Метод сжатия контекста, удаляющий неважные слова с помощью LLM для уменьшения количества токенов и затрат без существенной потери…
wikiRedis
…Как вы обеспечиваете низкую задержку (500ms) для LLM|64. Как вы обеспечиваете низкую задержку (500ms) для LLM]] - [[65. Как вы…
wikiLLM-in-the-loop
# LLM-in-the-loop ## Определение Архитектурный паттерн, в котором LLM управляет итеративной симуляцией, переводя запросы в параметры, интерпретируя результаты и…
wikimultiple judges
# multiple judges ## Определение Метод оценки с использованием нескольких LLM-судей (или экземпляров одной модели) для агрегации оценок. Позволяет снизить bias…
wikigraceful shutdown
…Как вы проектируете backpressure в LLM serving системе|244. Как вы проектируете backpressure в LLM serving системе]] - [[247. Как вы…
answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…Пример конфигурации для [[Вики/TensorRT-LLM\|TensorRT-LLM]] ```python # Пример запуска через TensorRT-LLM (упрощённо) from tensorrt_llm import LLM…
wikiLLM-валидация
# LLM-валидация ## Определение Процесс проверки корректности сгенерированных данных (например, вопросов) с помощью LLM, часто применяемый для контроля качества в синтетических…
wikiMinikube
…Настроить autoscaling для LLM сервера|192. Настроить autoscaling для LLM сервера]] - [[202. Настроить health checks для LLM|202. Настроить health…
wiki503 Service Unavailable
…Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)|65. Как вы обрабатываете rate limiting от LLM провайдеров (OpenAI…
wikiLLM-SR
# LLM-SR ## Определение Метод символьной регрессии (Symbolic Regression), использующий LLM для ускорения поиска математических формул, расширяя подход AI Feynman. ## Где…
wikiSwiGLU
# SwiGLU ## Определение Функция активации, комбинирующая Swish и гейтинг (SwiGLU(x) = Swish(Wx+b) ⊙ (Vx+c)), используемая в современных LLM как…
wikiself-hosted
…n8n, Make, Zapier — как вы интегрируете их с LLM|59. n8n, Make, Zapier — как вы интегрируете их с LLM]] - [[61…
wikimultimodal LLM
# multimodal LLM ## Определение Большая языковая модель, способная принимать на вход и обрабатывать данные разных типов: текст, изображения, аудио. Преодолевает ограничение…
wikiLLM streaming
…Что такое streaming LLM для бесконечного контекста (техника rollback)|648. Что такое streaming LLM для бесконечного контекста (техника rollback)]] - [[800…
wikifeature store
…Какие 3 книгикурса вы рекомендуете по production LLM|80. Какие 3 книгикурса вы рекомендуете по production LLM]] - [[260. Как вы…
wikidiffusion LLM
# diffusion LLM ## Определение Модель, генерирующая текст путём итеративного превращения случайного шума в последовательность токенов, что позволяет параллельную генерацию нескольких токенов…
wikiLLM inference cluster
# LLM inference cluster ## Определение Кластер серверов, развёрнутых для выполнения инференса LLM, часто распределённый по регионам для низкой задержки и высокой…
wikiMemorization
# Memorization ## Определение Memorization — склонность LLM точно воспроизводить уникальные последовательности из обучающих данных, что может приводить к утечке конфиденциальной информации. ## Где…
wikiEventually consistent
…Как вы проектируете multi-region active-active для LLM API|247. Как вы проектируете multi-region active-active для LLM…