Поиск

  • wikiPerformance Drift

    # Performance Drift ## Определение Изменение ключевых метрик производительности (latency, throughput, количество токенов) со временем, требующее мониторинга и корректирующих действий. ## Где встречается…

  • wikiperformance

    # performance ## Определение Характеристика скорости и эффективности работы системы, часто измеряемая через latency, throughput и использование ресурсов при фиксированной модели. ## Где…

  • wikiperformance tests

    # performance tests ## Определение Тесты, измеряющие latency, стоимость (токены) и throughput агента или системы для оценки их производительности под нагрузкой. ## Где…

  • wikidownstream metrics

    # downstream metrics ## Определение Метрики на целевых задачах, используемые для оценки качества модели; их падение при росте proxy reward сигнализирует о…

  • wikicost-quality trade-off

    # cost-quality trade-off ## Определение Компромисс между стоимостью и качеством ответа, лежащий в основе cost-aware routing и выбора модели…

  • wikiHPC

    # HPC ## Определение Область вычислений, использующая мощные кластеры с GPU и высокоскоростными сетями (InfiniBand) для решения ресурсоёмких задач, таких как обучение…

  • wikideliberate decoding

    …planning are performed before generating the final output, improving performance on complex tasks. ## Где встречается - [[Практика|Практика]] - [[69. Реализовать deliberate…

  • wikidegradation threshold

    # degradation threshold ## Определение Заранее заданное значение ухудшения метрики (например, accuracy), при котором эксперимент автоматически останавливается и происходит откат модели. ## Где…

  • wikiDownstream quality

    # Downstream quality ## Определение Оценка качества синтетических данных путём обучения модели на них и проверки на реальных задачах. ## Где встречается - [[682…

  • wikihuman baseline

    # human baseline ## Определение Эталон производительности человека, используемый для сравнения качества моделей. Обычно представляет собой экспертные ответы на задачи бенчмарка. ## Где…

  • wikiLong-context capability

    # Long-context capability ## Определение Способность модели эффективно использовать информацию из большого контекста. Тестируется с помощью специальных бенчмарков, таких как RULER…

  • wikiModel cards

    # Model cards ## Определение Документация модели, включающая intended use, performance, limitations и ethical considerations, для прозрачности и соответствия регуляциям. ## Где встречается…

  • wikidegradation

    # degradation ## Определение Ухудшение метрик производительности или качества модели со временем, например, при инкрементальных вставках в HNSW или изменении структуры данных…

  • wikiQuality degradation

    # Quality degradation ## Определение Падение метрик качества (например, точности, faithfulness, answer relevance) по сравнению с использованием эталонной модели, часто является критерием…

  • wikiprofiler

    # profiler ## Определение Инструмент для анализа производительности, выявляющий узкие места, такие как memory stall ratio, и сравнивающий время выполнения различных подходов…

  • answerКак интегрировать тестирование агентов в CI/CD?

    …faithfulness, consistency, отсутствие галлюцинаций | hypothesis + LLM-асессор (RAGAS, LangChain) | | [[Вики/performance tests\|Performance tests]] (нагрузочные) | Latency, cost (токены), throughput | Locust…

  • wikibenchmark

    # benchmark ## Определение Набор тестов для оценки базовых способностей, безопасности или производительности модели; используется для фиксации baseline и сравнения версий. ## Где…

  • answerЧто такое SLI (Service Level Indicators) для AI системы и как их собирать?

    …Категории SLI для AI-систем [[Вики/SLA\|SLI]] для AI можно разделить на четыре группы: - **[[Вики/performance\|Производительность]] ([[Вики/performance

  • answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?

    …Плюсы - Максимальная [[Вики/performance\|производительность]] на [[Вики/GPU\|GPU]] NVIDIA. - Хорошая поддержка [[Вики/8-bit quantization\|INT8]] квантования с калибровкой…

  • answerКак работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100?

    …поддержка разреженных матриц (2:4 [[Вики/Sparse computation\|sparsity]]) — удваивает [[Вики/performance\|производительность]]. **Пиковая [[Вики/performance\|производительность]] [[Вики/H100\|H100…

  • answerКак работает многогранный (faceted) поиск в RAG с фильтрами?

    …Преимущества - Высокая [[Вики/performance\|производительность]], если [[Вики/Filters\|фильтры]] селективны (отсекают >90% данных). - Гарантируется, что все результаты соответствуют фильтрам. - Не…

  • answerЧто такое MIG (Multi-Instance GPU) и когда он полезен для LLM?

    …Каждый [[Вики/multi-tenant\|tenant]] получает гарантированную [[Вики/performance\|производительность]], не зависящую от нагрузки соседей. ### 3.2 Инференс с жёсткими…

  • answerЧто такое model cards и system cards и как их составлять?

    …поиск\|RAG]], [[Вики/code generation\|генерация кода]]). - [[Вики/performance\|Performance]] ([[Вики/performance\|производительность]]) — метрики на стандартных бенчмарках ([[Вики/accuracy\|accuracy…

  • answerTensorRT-LLM vs vLLM — сравнение для production deployment?

    …TensorRT-LLM\|TensorRT-LLM]] от NVIDIA обеспечивает максимальную [[Вики/performance\|производительность]] за счёт графовых оптимизаций ([[Вики/CUDA\|CUDA]] [[Вики/Graphs…

  • answerКак работают Tensor Cores в H100/B200 и для чего они нужны?

    …Используются для весов и активаций соответственно. - Пиковая [[Вики/performance\|производительность]]: 1979 [[Вики/TFLOPS\|TFLOPS]] для [[Вики/FP8\|FP8]] ([[Вики/Sparse…

  • answerКак вы делаете retrieval для структурированных данных (SQL, Knowledge Graph)?

    …Использовать entity linking (сопоставление с URI), уточняющий вопрос | | [[Вики/performance\|Производительность]] | Сложные графовые запросы могут выполняться долго | Индексировать узлы по…

  • answerКак бы вы спроектировали multi-tenant RAG (разные компании, изолированные данные)?

    …Основные проблемы: - [[Вики/изоляция данных\|Изоляция данных]] — [[Вики/multi-tenant\|tenant]] не должен видеть чужие документы. - [[Вики/performance\|Производительность]] — [[Вики…

  • answerКак вы измеряете reasoning degradation с ростом контекста? (curse of length)

    …большинство моделей обучаются на контекстах до 4k–8k токенов; на длинах 32k+ [[Вики/performance\|performance]] падает. --- ## 3. Методология измерения ### 3…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать test plan для агента

    …injection\|injection]] / [[Вики/tool misuse\|tool misuse]]) и [[Вики/performance\|производительность]]. Вы разработаете [[Вики/test plan\|test plan]] — документ, описывающий…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить cost efficiency провайдеров LLM (GPT-4 vs Claude vs Llama-3 self-hosted)

    …Построить сводную таблицу cost_performance | Провайдер | Средняя latency (с) | Throughput (req/min) | Средняя стоимость за запрос ($) | Средний качество (score) | Cost…

  • answerКак вы деплоите policy (RLHF модель) в production с online feedback loop?

    …классификатора | | Бизнес | CTR, конверсия, retention | Стандартные продуктовые метрики | | [[Вики/performance\|Performance]] | Latency p50/p99, throughput | Инфраструктурные метрики | [[Вики/rollback\|Автоматический…

  • answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?

    …2. [[Вики/performance\|Производительность]]: [[Вики/auto-tuning\|auto-tuning]] часто даёт выигрыш 1.5–3x по сравнению с cuDNN/MKL…

  • answerЧто такое Filtered ANN Search и как оно реализовано в Qdrant vs Weaviate?

    …Выбор стратегии критически влияет на [[Вики/performance\|производительность]] и [[Вики/accuracy\|точность]] в зависимости от селективности фильтра. --- ## 1. Термин: Filtered…

  • answerЧто такое «message bus» для агентов (Kafka, NATS, Redis PubSub)?

    …Гарантии | At-least-once, exactly-once (с настройками) | | [[Вики/performance\|Производительность]] | Десятки тысяч сообщений в секунду | | [[Вики/TTFT\|Задержка]] | Несколько…

  • answerКогда SSM-архитектуры (Mamba, StripedHyena) лучше трансформеров для long context?

    …Пет-проект для закрепления [[Вики/Task\|Задача]] Сравнить [[Вики/performance\|производительность]] [[Вики/Mamba\|Mamba]], трансформера и гибрида на задаче классификации…

  • answerЧто такое planner/executor architecture для агентов и когда она нужна?

    …Максимальная гибкость — каждый следующий шаг зависит от предыдущего | | [[Вики/performance\|Производительность]] | Меньше вызовов LLM (один раз на планирование, потом только…

  • answerЧто такое Cooperative Groups в CUDA и как использовать для attention?

    …Сравнить [[Вики/performance\|производительность]] и читаемость кода. Инструменты [[Вики/CUDA\|CUDA]] Toolkit ([[Вики/nvcc\|nvcc]]), профилировщик [[Вики/nvprof\|nvprof]] или…

  • answerПочему decode stage плохо batchится?

    …ситуация, когда [[Вики/performance\|производительность]] ограничена пропускной способностью памяти ([[Вики/Memory Bandwidth\|bandwidth]]), а не вычислительной мощностью ([[Вики/FLOPs\|FLOPS…

  • answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?

    …один инстанс не может повлиять на [[Вики/performance\|производительность]] другого, даже при максимальной нагрузке. Зачем это нужно - [[Вики/изоляция\|Изоляция…

  • answerКак делать sandboxing для agent tools (изоляция выполнения)?

    …Это даёт дополнительную изоляцию, но снижает [[Вики/performance\|производительность]]. [[Вики/Kata-containers\|Kata Containers]] — каждый [[Вики/containerization\|контейнер]] работает в…

  • wikiмониторинг

    # мониторинг ## Определение Процесс сбора, анализа и визуализации метрик, логов и трасс для обеспечения наблюдаемости системы, раннего обнаружения проблем и отладки…

  • answerКак выглядит process operational excellence в Harness Engineering (ORR, Operational Reviews)?

    …5. [[Вики/performance\|Performance]] — [[Вики/Latency\|latency]] ([[Вики/p50\|p50]], [[Вики/Latency\|p95]], [[Вики/Latency\|p99]]), [[Вики/throughput\|throughput]], количество…

  • answerКак вы проектируете API для внешних систем, использующих вашу LLM?

    …простота разработки или [[Вики/performance\|производительность]] и нативный [[Вики/Streaming\|стриминг]]. | Характеристика | REST (JSON over HTTP) | gRPC (Protobuf over HTTP…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть NCCL бенчмарк на 2-8 GPU

    …В результате вы сможете быстро оценить реальную [[Вики/performance\|производительность]] interconnect и диагностировать типовые проблемы (неправильная [[Вики/topology\|топология]], driver…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить mmap для embeddings

    …Тест на [[Вики/performance\|производительность]] - Выполнить 100 запросов, замерить среднее время - Построить график времени от количества векторов (10%, 25%, 50…

  • answerКак работает FP8 quantization на H100 (Transformer Engine)?

    …Сравнить [[Вики/performance\|производительность]] и точность [[Вики/FP8 quantization\|FP8 quantization]] на H100 (или эмулировать на CPU с помощью симуляции…

  • answerКак работает извлечение знаний (knowledge editing) из LLM без переобучения?

    …Это позволяет исправить устаревшую или неверную информацию (например, «столица Франции — Париж» на «Берлин») за несколько секунд, сохраняя общую [[Вики/performance

  • answerКак вы деплоите LLM с TensorRT-LLM в production?

    …сборка engine) | Высокая (один pip install) | Высокая (Docker) | | [[Вики/performance\|Производительность]] | Лучшая для NVIDIA GPU | Очень хорошая | Хорошая | | Экосистема | Triton…

  • answerКак в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)?

    …какими параметрами | Сравнение частот вызовов, статистика ошибок API | | Производительности (Performance Drift) | Latency, throughput, токенов на ответ | Percentile comparison, control charts…

  • answerЧто такое «message schema evolution» (Avro/Protobuf)?

    …сообщения | Средний (JSON header) | Oчень малый (compact binary) | | [[Вики/performance\|Производительность]] | Ниже (парсинг JSON) | Высокая | | Поддержка в Schema Registry | Отличная…