Поиск
- wikiCPU bottleneck
# CPU bottleneck ## Определение Ситуация, когда скорость CPU ограничивает общую производительность, вызывая недозагрузку GPU. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация…
- wikiperformance
# performance ## Определение Характеристика скорости и эффективности работы системы, часто измеряемая через latency, throughput и использование ресурсов при фиксированной модели. ## Где…
- wikiBackend Engineer
…Обеспечивает надёжность и производительность бэкенда. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiasynchronous preprocessing
# asynchronous preprocessing ## Определение Метод подготовки данных на CPU параллельно с работой GPU, снижающий простои и повышающий общую производительность инференса. ## Где…
- wikiAttention kernel
# Attention kernel ## Определение GPU-ядро, реализующее вычисление механизма внимания в LLM; его производительность чувствительна к ветвлениям и warp divergence. ## Где…
- wikiNVLink topology
# NVLink topology ## Определение Конфигурация физических соединений между GPU через NVLink, влияющая на производительность распределённых вычислений и требующая topology-aware placement…
- wikiadapter conflicts
# adapter conflicts ## Определение Ситуация, когда при объединении разных адаптеров их обновления конфликтуют из-за разного направления корректировок, снижая итоговую производительность…
- wikiDragonfly
# Dragonfly ## Определение Современная in-memory база данных, совместимая с Redis, предлагающая более высокую производительность и масштабируемость. ## Где встречается - [[198. Настроить…
- wikiexllamav2
# exllamav2 ## Определение Inference-фреймворк с поддержкой квантизации AWQ, обеспечивающий высокую производительность. ## Где встречается - [[210. Сравнить GPTQ vs AWQ на reasoning…
- wikireal-time monitoring
# real-time monitoring ## Определение Непрерывное отслеживание метрик системы (производительность, качество) в реальном времени для быстрого обнаружения проблем. ## Где встречается - [[Практика…
- wikiGoal divergence
# Goal divergence ## Определение Состояние, когда агенты в multi-agent системе оптимизируют разные прокси-цели, вызывая конфликт и снижая общую производительность…
- wikiBacklog
…Показатель используется для мониторинга загруженности системы и сигнализирует о проблемах с производительностью. ## Где встречается - [[176. Развернуть message bus (NATSKafka)|176…
- wiki4th gen
# 4th gen ## Определение Четвёртое поколение Tensor Cores в GPU H100, поддерживающее форматы FP8 и обеспечивающее повышенную производительность для обучения и…
- wikiтопология GPU
# топология GPU ## Определение Схема соединений GPU внутри узла и между узлами, влияющая на производительность распределённых вычислений. ## Где встречается - [[5. Сравнить…
- wikiфрагментация данных
# фрагментация данных ## Определение Нежелательное состояние при росте числа мелких сегментов в векторной БД, ухудшающее производительность поиска. ## Где встречается - [[16. Реализовать…
- wikiперекомпиляция
…формы тензоров или других динамических параметров, что может снижать производительность из-за накладных расходов. ## Где встречается - [[800+ вопросов|800+ вопросов…
- wikifastparquet
…Обеспечивает высокую производительность при работе с колоночными данными. ## Где встречается - [[11. Конвертировать датасет из JSONL в Parquet|11. Конвертировать датасет…
- wikiGuaranteed QoS
# Guaranteed QoS ## Определение Гарантированное качество обслуживания для GPU-кластера, обеспечивающее резервирование ресурсов и предсказуемую производительность при выполнении задач. ## Где встречается…
- wikiCPU sockets
# CPU sockets ## Определение Физические разъёмы для CPU на материнской плате; расположение GPU и NIC относительно разных сокетов влияет на производительность…
- wikiSLO-driven
…Позволяет балансировать между качеством и производительностью. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс…
- wikiкардинальность лейблов
# кардинальность лейблов ## Определение Высокая размерность уникальных значений лейблов (например, user_id), негативно влияющая на производительность систем мониторинга, таких как Prometheus…
- wikidefault_segment_number
…Влияет на распределение данных и производительность запросов. ## Где встречается - [[16. Реализовать compaction в векторной БД|16. Реализовать compaction в векторной…
- wikiCollNet
# CollNet ## Определение Продвинутый алгоритм коллективных коммуникаций, доступный на GPU с NVLink, обеспечивающий более высокую производительность по сравнению со стандартными примитивами…
- wikimemmap_threshold_kb
…использования memmap в сегментах Qdrant, влияющее на фрагментацию и производительность. ## Где встречается - [[16. Реализовать compaction в векторной БД|16. Реализовать…
- wikiWQE
# WQE ## Определение Элемент очереди работы (Work Queue Element) в очереди QP (Queue Pair) RDMA; количество WQE влияет на производительность и…
- wikiCache effect
# Cache effect ## Определение Влияние кэширования операционной системы на производительность операций ввода-вывода, например, при замерах скорости EBS. ## Где встречается - [[13…
- wikibunched kernel launches
…Улучшает производительность на много-GPU системах. ## Где встречается - [[9. Профилировать network congestion на 64 GPU|9. Профилировать network congestion на…
- wikitopology
# topology ## Определение Схема соединений GPU, определяющая производительность коммуникаций (NVLink vs PCIe). ## Где встречается - [[1. Развернуть NCCL бенчмарк на 2-8…
- wikiGPU utilization drop
# GPU utilization drop ## Определение Ситуация, когда загрузка GPU падает ниже ожидаемого уровня (например, <50%), что сигнализирует о проблемах с производительностью…
- wikinvidia-uvm
…Упрощает разработку, но может влиять на производительность при интенсивном обмене данными. ## Где встречается - [[4. Настроить GPU Direct RDMA|4. Настроить…
- wikiRecurrent vs parallel computation
# Recurrent vs parallel computation ## Определение Сравнение рекуррентных и параллельных подходов к вычислениям в LLM, влияющее на выбор архитектуры и производительность…
- wikitensor-parallel-size
…Влияет на масштабирование и производительность инференса. ## Где встречается - [[74. Настроить auto-scaling для vLLM|74. Настроить auto-scaling для vLLM…
- wikiMax sequence length
# Max sequence length ## Определение Максимальная длина входной последовательности, влияющая на выделение памяти и производительность модели при инференсе. ## Где встречается - [[318…
- wikinum_alloc_retries
# num_alloc_retries ## Определение Метрика, показывающая количество повторных попыток выделения памяти, что указывает на фрагментацию и может влиять на производительность…
- wikispilling
# spilling ## Определение Ситуация, когда при компиляции не хватает регистров и данные временно сохраняются в память, что снижает производительность. ## Где встречается…
- wikiI/O
# I/O ## Определение Операции ввода-вывода данных, производительность которых важна при работе с различными форматами файлов (например, JSONL vs Parquet…
- wikiValid Efficiency Score
# Valid Efficiency Score ## Определение Метрика, оценивающая корректность и производительность SQL-запроса, учитывая как точность, так и эффективность выполнения. ## Где встречается…
- wikiBLAS
…выполнения базовых операций линейной алгебры (например, intel-numpy, OpenBLAS). Производительность BLAS влияет на скорость инференса ML-моделей на CPU. ## Где…
- wikiib_write_bw
# ib_write_bw ## Определение Бенчмарк для измерения пропускной способности записи по протоколу InfiniBand, позволяющий проверить производительность канала между GPU в…
- wikiL3 cache
…Влияет на производительность при работе с рабочими наборами данных, превышающими его объём, особенно в задачах с большими моделями. ## Где встречается…
- wiki2:4 sparsity
# 2:4 sparsity ## Определение Разреженность, где каждый второй элемент — ноль, удваивает производительность Tensor Cores при поддержке sparse. ## Где встречается - [[705…
- wikiRED metrics
…Позволяют оценить производительность и здоровье каждого эндпоинта. ## Где встречается - [[Практика|Практика]] - [[24. Настроить RED metrics для LLM|24. Настроить RED…
- wikiasyncpg
…Обеспечивает высокую производительность при операциях ввода-вывода за счёт неблокирующих вызовов. ## Где встречается - [[86. Реализовать user feedback loop|86. Реализовать…
- wikiCPU-bound
# CPU-bound ## Определение Тип операций, где производительность ограничена CPU, а не GPU; требует особой параллелизации (например, парсинг PDF). ## Где встречается…
- wikiNCCL_NET_GDR_LEVEL
# NCCL_NET_GDR_LEVEL ## Определение Переменная окружения для настройки GPU Direct RDMA, влияет на производительность меж-GPU коммуникаций. ## Где встречается…
- wikiTLS 1.3
# TLS 1.3 ## Определение Версия протокола TLS, обеспечивающая улучшенную безопасность и производительность для шифрования канала передачи данных. ## Где встречается - [[83…
- wikiGP3
# GP3 ## Определение Тип тома EBS в AWS с фиксированной производительностью (2000 IOPS и 500 MB/s throughput), используемый для хранения…
- wikicache miss
…Увеличение числа cache miss снижает производительность. ## Где встречается - [[414. Как вы проектируете multi-region active-active для LLM API|414…
- wikiEC2 instance type
# EC2 instance type ## Определение Тип виртуальной машины в AWS, определяющий количество vCPU, памяти и сетевую производительность. Выбор типа влияет на…
- wikigraceful degradation
# graceful degradation ## Определение Способность системы продолжать работу с пониженной производительностью при частичных сбоях, а не полностью отказывать. Для агентов включает…