Поиск

  • wikiCPU bottleneck

    # CPU bottleneck ## Определение Ситуация, когда скорость CPU ограничивает общую производительность, вызывая недозагрузку GPU. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…

  • wikiperformance

    # performance ## Определение Характеристика скорости и эффективности работы системы, часто измеряемая через latency, throughput и использование ресурсов при фиксированной модели. ## Где…

  • wikiBackend Engineer

    …Обеспечивает надёжность и производительность бэкенда. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiasynchronous preprocessing

    # asynchronous preprocessing ## Определение Метод подготовки данных на CPU параллельно с работой GPU, снижающий простои и повышающий общую производительность инференса. ## Где…

  • wikiAttention kernel

    # Attention kernel ## Определение GPU-ядро, реализующее вычисление механизма внимания в LLM; его производительность чувствительна к ветвлениям и warp divergence. ## Где…

  • wikiNVLink topology

    # NVLink topology ## Определение Конфигурация физических соединений между GPU через NVLink, влияющая на производительность распределённых вычислений и требующая topology-aware placement…

  • wikiadapter conflicts

    # adapter conflicts ## Определение Ситуация, когда при объединении разных адаптеров их обновления конфликтуют из-за разного направления корректировок, снижая итоговую производительность

  • wikiDragonfly

    # Dragonfly ## Определение Современная in-memory база данных, совместимая с Redis, предлагающая более высокую производительность и масштабируемость. ## Где встречается - [[198. Настроить…

  • wikiexllamav2

    # exllamav2 ## Определение Inference-фреймворк с поддержкой квантизации AWQ, обеспечивающий высокую производительность. ## Где встречается - [[210. Сравнить GPTQ vs AWQ на reasoning…

  • wikireal-time monitoring

    # real-time monitoring ## Определение Непрерывное отслеживание метрик системы (производительность, качество) в реальном времени для быстрого обнаружения проблем. ## Где встречается - [[Практика…

  • wikiGoal divergence

    # Goal divergence ## Определение Состояние, когда агенты в multi-agent системе оптимизируют разные прокси-цели, вызывая конфликт и снижая общую производительность

  • wikiBacklog

    …Показатель используется для мониторинга загруженности системы и сигнализирует о проблемах с производительностью. ## Где встречается - [[176. Развернуть message bus (NATSKafka)|176…

  • wiki4th gen

    # 4th gen ## Определение Четвёртое поколение Tensor Cores в GPU H100, поддерживающее форматы FP8 и обеспечивающее повышенную производительность для обучения и…

  • wikiтопология GPU

    # топология GPU ## Определение Схема соединений GPU внутри узла и между узлами, влияющая на производительность распределённых вычислений. ## Где встречается - [[5. Сравнить…

  • wikiфрагментация данных

    # фрагментация данных ## Определение Нежелательное состояние при росте числа мелких сегментов в векторной БД, ухудшающее производительность поиска. ## Где встречается - [[16. Реализовать…

  • wikiперекомпиляция

    …формы тензоров или других динамических параметров, что может снижать производительность из-за накладных расходов. ## Где встречается - [[800+ вопросов|800+ вопросов…

  • wikifastparquet

    …Обеспечивает высокую производительность при работе с колоночными данными. ## Где встречается - [[11. Конвертировать датасет из JSONL в Parquet|11. Конвертировать датасет…

  • wikiGuaranteed QoS

    # Guaranteed QoS ## Определение Гарантированное качество обслуживания для GPU-кластера, обеспечивающее резервирование ресурсов и предсказуемую производительность при выполнении задач. ## Где встречается…

  • wikiCPU sockets

    # CPU sockets ## Определение Физические разъёмы для CPU на материнской плате; расположение GPU и NIC относительно разных сокетов влияет на производительность

  • wikiSLO-driven

    …Позволяет балансировать между качеством и производительностью. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс…

  • wikiкардинальность лейблов

    # кардинальность лейблов ## Определение Высокая размерность уникальных значений лейблов (например, user_id), негативно влияющая на производительность систем мониторинга, таких как Prometheus…

  • wikidefault_segment_number

    …Влияет на распределение данных и производительность запросов. ## Где встречается - [[16. Реализовать compaction в векторной БД|16. Реализовать compaction в векторной…

  • wikiCollNet

    # CollNet ## Определение Продвинутый алгоритм коллективных коммуникаций, доступный на GPU с NVLink, обеспечивающий более высокую производительность по сравнению со стандартными примитивами…

  • wikimemmap_threshold_kb

    …использования memmap в сегментах Qdrant, влияющее на фрагментацию и производительность. ## Где встречается - [[16. Реализовать compaction в векторной БД|16. Реализовать…

  • wikiWQE

    # WQE ## Определение Элемент очереди работы (Work Queue Element) в очереди QP (Queue Pair) RDMA; количество WQE влияет на производительность и…

  • wikiCache effect

    # Cache effect ## Определение Влияние кэширования операционной системы на производительность операций ввода-вывода, например, при замерах скорости EBS. ## Где встречается - [[13…

  • wikibunched kernel launches

    …Улучшает производительность на много-GPU системах. ## Где встречается - [[9. Профилировать network congestion на 64 GPU|9. Профилировать network congestion на…

  • wikitopology

    # topology ## Определение Схема соединений GPU, определяющая производительность коммуникаций (NVLink vs PCIe). ## Где встречается - [[1. Развернуть NCCL бенчмарк на 2-8…

  • wikiGPU utilization drop

    # GPU utilization drop ## Определение Ситуация, когда загрузка GPU падает ниже ожидаемого уровня (например, <50%), что сигнализирует о проблемах с производительностью

  • wikinvidia-uvm

    …Упрощает разработку, но может влиять на производительность при интенсивном обмене данными. ## Где встречается - [[4. Настроить GPU Direct RDMA|4. Настроить…

  • wikiRecurrent vs parallel computation

    # Recurrent vs parallel computation ## Определение Сравнение рекуррентных и параллельных подходов к вычислениям в LLM, влияющее на выбор архитектуры и производительность

  • wikitensor-parallel-size

    …Влияет на масштабирование и производительность инференса. ## Где встречается - [[74. Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM…

  • wikiMax sequence length

    # Max sequence length ## Определение Максимальная длина входной последовательности, влияющая на выделение памяти и производительность модели при инференсе. ## Где встречается - [[318…

  • wikinum_alloc_retries

    # num_alloc_retries ## Определение Метрика, показывающая количество повторных попыток выделения памяти, что указывает на фрагментацию и может влиять на производительность

  • wikispilling

    # spilling ## Определение Ситуация, когда при компиляции не хватает регистров и данные временно сохраняются в память, что снижает производительность. ## Где встречается…

  • wikiI/O

    # I/O ## Определение Операции ввода-вывода данных, производительность которых важна при работе с различными форматами файлов (например, JSONL vs Parquet…

  • wikiValid Efficiency Score

    # Valid Efficiency Score ## Определение Метрика, оценивающая корректность и производительность SQL-запроса, учитывая как точность, так и эффективность выполнения. ## Где встречается…

  • wikiBLAS

    …выполнения базовых операций линейной алгебры (например, intel-numpy, OpenBLAS). Производительность BLAS влияет на скорость инференса ML-моделей на CPU. ## Где…

  • wikiib_write_bw

    # ib_write_bw ## Определение Бенчмарк для измерения пропускной способности записи по протоколу InfiniBand, позволяющий проверить производительность канала между GPU в…

  • wikiL3 cache

    …Влияет на производительность при работе с рабочими наборами данных, превышающими его объём, особенно в задачах с большими моделями. ## Где встречается…

  • wiki2:4 sparsity

    # 2:4 sparsity ## Определение Разреженность, где каждый второй элемент — ноль, удваивает производительность Tensor Cores при поддержке sparse. ## Где встречается - [[705…

  • wikiRED metrics

    …Позволяют оценить производительность и здоровье каждого эндпоинта. ## Где встречается - [[Практика|Практика]] - [[24. Настроить RED metrics для LLM|24. Настроить RED…

  • wikiasyncpg

    …Обеспечивает высокую производительность при операциях ввода-вывода за счёт неблокирующих вызовов. ## Где встречается - [[86. Реализовать user feedback loop|86. Реализовать…

  • wikiCPU-bound

    # CPU-bound ## Определение Тип операций, где производительность ограничена CPU, а не GPU; требует особой параллелизации (например, парсинг PDF). ## Где встречается…

  • wikiNCCL_NET_GDR_LEVEL

    # NCCL_NET_GDR_LEVEL ## Определение Переменная окружения для настройки GPU Direct RDMA, влияет на производительность меж-GPU коммуникаций. ## Где встречается…

  • wikiTLS 1.3

    # TLS 1.3 ## Определение Версия протокола TLS, обеспечивающая улучшенную безопасность и производительность для шифрования канала передачи данных. ## Где встречается - [[83…

  • wikiGP3

    # GP3 ## Определение Тип тома EBS в AWS с фиксированной производительностью (2000 IOPS и 500 MB/s throughput), используемый для хранения…

  • wikicache miss

    …Увеличение числа cache miss снижает производительность. ## Где встречается - [[414. Как вы проектируете multi-region active-active для LLM API|414…

  • wikiEC2 instance type

    # EC2 instance type ## Определение Тип виртуальной машины в AWS, определяющий количество vCPU, памяти и сетевую производительность. Выбор типа влияет на…

  • wikigraceful degradation

    # graceful degradation ## Определение Способность системы продолжать работу с пониженной производительностью при частичных сбоях, а не полностью отказывать. Для агентов включает…