Поиск

wikiPerformance Drift
# Performance Drift ## Определение Изменение ключевых метрик производительности (latency, throughput, количество токенов) со временем, требующее мониторинга и корректирующих действий. ## Где встречается…
wikiperformance
# performance ## Определение Характеристика скорости и эффективности работы системы, часто измеряемая через latency, throughput и использование ресурсов при фиксированной модели. ## Где…
wikiperformance tests
# performance tests ## Определение Тесты, измеряющие latency, стоимость (токены) и throughput агента или системы для оценки их производительности под нагрузкой. ## Где…
wikidownstream metrics
# downstream metrics ## Определение Метрики на целевых задачах, используемые для оценки качества модели; их падение при росте proxy reward сигнализирует о…
wikicost-quality trade-off
# cost-quality trade-off ## Определение Компромисс между стоимостью и качеством ответа, лежащий в основе cost-aware routing и выбора модели…
wikiHPC
# HPC ## Определение Область вычислений, использующая мощные кластеры с GPU и высокоскоростными сетями (InfiniBand) для решения ресурсоёмких задач, таких как обучение…
wikideliberate decoding
…planning are performed before generating the final output, improving performance on complex tasks. ## Где встречается - [[Практика|Практика]] - [[69. Реализовать deliberate…
wikidegradation threshold
# degradation threshold ## Определение Заранее заданное значение ухудшения метрики (например, accuracy), при котором эксперимент автоматически останавливается и происходит откат модели. ## Где…
wikiDownstream quality
# Downstream quality ## Определение Оценка качества синтетических данных путём обучения модели на них и проверки на реальных задачах. ## Где встречается - [[682…
wikihuman baseline
# human baseline ## Определение Эталон производительности человека, используемый для сравнения качества моделей. Обычно представляет собой экспертные ответы на задачи бенчмарка. ## Где…
wikiLong-context capability
# Long-context capability ## Определение Способность модели эффективно использовать информацию из большого контекста. Тестируется с помощью специальных бенчмарков, таких как RULER…
wikiModel cards
# Model cards ## Определение Документация модели, включающая intended use, performance, limitations и ethical considerations, для прозрачности и соответствия регуляциям. ## Где встречается…
wikidegradation
# degradation ## Определение Ухудшение метрик производительности или качества модели со временем, например, при инкрементальных вставках в HNSW или изменении структуры данных…
wikiQuality degradation
# Quality degradation ## Определение Падение метрик качества (например, точности, faithfulness, answer relevance) по сравнению с использованием эталонной модели, часто является критерием…
wikiprofiler
# profiler ## Определение Инструмент для анализа производительности, выявляющий узкие места, такие как memory stall ratio, и сравнивающий время выполнения различных подходов…
answerКак интегрировать тестирование агентов в CI/CD?
…faithfulness, consistency, отсутствие галлюцинаций | hypothesis + LLM-асессор (RAGAS, LangChain) | | [[Вики/performance tests\|Performance tests]] (нагрузочные) | Latency, cost (токены), throughput | Locust…
wikibenchmark
# benchmark ## Определение Набор тестов для оценки базовых способностей, безопасности или производительности модели; используется для фиксации baseline и сравнения версий. ## Где…
answerЧто такое SLI (Service Level Indicators) для AI системы и как их собирать?
…Категории SLI для AI-систем [[Вики/SLA\|SLI]] для AI можно разделить на четыре группы: - **[[Вики/performance\|Производительность]] ([[Вики/performance…
answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…Плюсы - Максимальная [[Вики/performance\|производительность]] на [[Вики/GPU\|GPU]] NVIDIA. - Хорошая поддержка [[Вики/8-bit quantization\|INT8]] квантования с калибровкой…
answerКак работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100?
…поддержка разреженных матриц (2:4 [[Вики/Sparse computation\|sparsity]]) — удваивает [[Вики/performance\|производительность]]. **Пиковая [[Вики/performance\|производительность]] [[Вики/H100\|H100…
answerКак работает многогранный (faceted) поиск в RAG с фильтрами?
…Преимущества - Высокая [[Вики/performance\|производительность]], если [[Вики/Filters\|фильтры]] селективны (отсекают >90% данных). - Гарантируется, что все результаты соответствуют фильтрам. - Не…
answerЧто такое MIG (Multi-Instance GPU) и когда он полезен для LLM?
…Каждый [[Вики/multi-tenant\|tenant]] получает гарантированную [[Вики/performance\|производительность]], не зависящую от нагрузки соседей. ### 3.2 Инференс с жёсткими…
answerЧто такое model cards и system cards и как их составлять?
…поиск\|RAG]], [[Вики/code generation\|генерация кода]]). - [[Вики/performance\|Performance]] ([[Вики/performance\|производительность]]) — метрики на стандартных бенчмарках ([[Вики/accuracy\|accuracy…
answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…TensorRT-LLM\|TensorRT-LLM]] от NVIDIA обеспечивает максимальную [[Вики/performance\|производительность]] за счёт графовых оптимизаций ([[Вики/CUDA\|CUDA]] [[Вики/Graphs…
answerКак работают Tensor Cores в H100/B200 и для чего они нужны?
…Используются для весов и активаций соответственно. - Пиковая [[Вики/performance\|производительность]]: 1979 [[Вики/TFLOPS\|TFLOPS]] для [[Вики/FP8\|FP8]] ([[Вики/Sparse…
answerКак вы делаете retrieval для структурированных данных (SQL, Knowledge Graph)?
…Использовать entity linking (сопоставление с URI), уточняющий вопрос | | [[Вики/performance\|Производительность]] | Сложные графовые запросы могут выполняться долго | Индексировать узлы по…
answerКак бы вы спроектировали multi-tenant RAG (разные компании, изолированные данные)?
…Основные проблемы: - [[Вики/изоляция данных\|Изоляция данных]] — [[Вики/multi-tenant\|tenant]] не должен видеть чужие документы. - [[Вики/performance\|Производительность]] — [[Вики…
answerКак вы измеряете reasoning degradation с ростом контекста? (curse of length)
…большинство моделей обучаются на контекстах до 4k–8k токенов; на длинах 32k+ [[Вики/performance\|performance]] падает. --- ## 3. Методология измерения ### 3…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать test plan для агента
…injection\|injection]] / [[Вики/tool misuse\|tool misuse]]) и [[Вики/performance\|производительность]]. Вы разработаете [[Вики/test plan\|test plan]] — документ, описывающий…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить cost efficiency провайдеров LLM (GPT-4 vs Claude vs Llama-3 self-hosted)
…Построить сводную таблицу cost_performance | Провайдер | Средняя latency (с) | Throughput (req/min) | Средняя стоимость за запрос ($) | Средний качество (score) | Cost…
answerКак вы деплоите policy (RLHF модель) в production с online feedback loop?
…классификатора | | Бизнес | CTR, конверсия, retention | Стандартные продуктовые метрики | | [[Вики/performance\|Performance]] | Latency p50/p99, throughput | Инфраструктурные метрики | [[Вики/rollback\|Автоматический…
answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?
…2. [[Вики/performance\|Производительность]]: [[Вики/auto-tuning\|auto-tuning]] часто даёт выигрыш 1.5–3x по сравнению с cuDNN/MKL…
answerЧто такое Filtered ANN Search и как оно реализовано в Qdrant vs Weaviate?
…Выбор стратегии критически влияет на [[Вики/performance\|производительность]] и [[Вики/accuracy\|точность]] в зависимости от селективности фильтра. --- ## 1. Термин: Filtered…
answerЧто такое «message bus» для агентов (Kafka, NATS, Redis PubSub)?
…Гарантии | At-least-once, exactly-once (с настройками) | | [[Вики/performance\|Производительность]] | Десятки тысяч сообщений в секунду | | [[Вики/TTFT\|Задержка]] | Несколько…
answerКогда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?
…Пет-проект для закрепления [[Вики/Task\|Задача]] Сравнить [[Вики/performance\|производительность]] [[Вики/Mamba\|Mamba]], трансформера и гибрида на задаче классификации…
answerЧто такое planner/executor architecture для агентов и когда она нужна?
…Максимальная гибкость — каждый следующий шаг зависит от предыдущего | | [[Вики/performance\|Производительность]] | Меньше вызовов LLM (один раз на планирование, потом только…
answerЧто такое Cooperative Groups в CUDA и как использовать для attention?
…Сравнить [[Вики/performance\|производительность]] и читаемость кода. Инструменты [[Вики/CUDA\|CUDA]] Toolkit ([[Вики/nvcc\|nvcc]]), профилировщик [[Вики/nvprof\|nvprof]] или…
answerПочему decode stage плохо batchится?
…ситуация, когда [[Вики/performance\|производительность]] ограничена пропускной способностью памяти ([[Вики/Memory Bandwidth\|bandwidth]]), а не вычислительной мощностью ([[Вики/FLOPs\|FLOPS…
answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?
…один инстанс не может повлиять на [[Вики/performance\|производительность]] другого, даже при максимальной нагрузке. Зачем это нужно - [[Вики/изоляция\|Изоляция…
answerКак делать sandboxing для agent tools (изоляция выполнения)?
…Это даёт дополнительную изоляцию, но снижает [[Вики/performance\|производительность]]. [[Вики/Kata-containers\|Kata Containers]] — каждый [[Вики/containerization\|контейнер]] работает в…
wikiмониторинг
# мониторинг ## Определение Процесс сбора, анализа и визуализации метрик, логов и трасс для обеспечения наблюдаемости системы, раннего обнаружения проблем и отладки…
answerКак выглядит process operational excellence в Harness Engineering (ORR, Operational Reviews)?
…5. [[Вики/performance\|Performance]] — [[Вики/Latency\|latency]] ([[Вики/p50\|p50]], [[Вики/Latency\|p95]], [[Вики/Latency\|p99]]), [[Вики/throughput\|throughput]], количество…
answerКак вы проектируете API для внешних систем, использующих вашу LLM?
…простота разработки или [[Вики/performance\|производительность]] и нативный [[Вики/Streaming\|стриминг]]. | Характеристика | REST (JSON over HTTP) | gRPC (Protobuf over HTTP…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть NCCL бенчмарк на 2-8 GPU
…В результате вы сможете быстро оценить реальную [[Вики/performance\|производительность]] interconnect и диагностировать типовые проблемы (неправильная [[Вики/topology\|топология]], driver…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить mmap для embeddings
…Тест на [[Вики/performance\|производительность]] - Выполнить 100 запросов, замерить среднее время - Построить график времени от количества векторов (10%, 25%, 50…
answerКак работает FP8 quantization на H100 (Transformer Engine)?
…Сравнить [[Вики/performance\|производительность]] и точность [[Вики/FP8 quantization\|FP8 quantization]] на H100 (или эмулировать на CPU с помощью симуляции…
answerКак работает извлечение знаний (knowledge editing) из LLM без переобучения?
…Это позволяет исправить устаревшую или неверную информацию (например, «столица Франции — Париж» на «Берлин») за несколько секунд, сохраняя общую [[Вики/performance…
answerКак вы деплоите LLM с TensorRT-LLM в production?
…сборка engine) | Высокая (один pip install) | Высокая (Docker) | | [[Вики/performance\|Производительность]] | Лучшая для NVIDIA GPU | Очень хорошая | Хорошая | | Экосистема | Triton…
answerКак в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)?
…какими параметрами | Сравнение частот вызовов, статистика ошибок API | | Производительности (Performance Drift) | Latency, throughput, токенов на ответ | Percentile comparison, control charts…
answerЧто такое «message schema evolution» (Avro/Protobuf)?
…сообщения | Средний (JSON header) | Oчень малый (compact binary) | | [[Вики/performance\|Производительность]] | Ниже (парсинг JSON) | Высокая | | Поддержка в Schema Registry | Отличная…