Поиск
- wikiMemory profiling
# Memory profiling ## Определение Оценка потребления памяти структурами данных, например, индексом HNSW, для оптимизации параметров. ## Где встречается - [[225. Как вы выбираете…
- wikiBehavioral profiling
# Behavioral profiling ## Определение Метод построения профиля нормального поведения агента для выявления аномалий и защиты multi-agent систем от вредоносных действий…
- wikiprofiling
# profiling ## Определение Процесс сбора данных о производительности, включая замеры latency, использования памяти и GPU, для оптимизации системы. ## Где встречается - [[3…
- wikiprofiler
# profiler ## Определение Инструмент для анализа производительности, выявляющий узкие места, такие как memory stall ratio, и сравнивающий время выполнения различных подходов…
- wikinsys
# nsys ## Определение Инструмент системного профилирования NVIDIA для GPU, выполняющий трассировку вызовов CUDA, CPU-GPU взаимодействия и использования памяти. Применяется для…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить CUDA graphs для коротких запросов
…Опционально: - Jupyter notebook с визуализацией profiling trace. - Конфигурационный файл для разных моделей и длин. --- ## 7. Возможные сложности и их решение…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать memory fragmentation на GPU
…offs | | 389 | Monitoring GPU memory with nvidia-smi | | 512 | Profiling LLM inference memory (kv-cache) | | 678 | Debugging OOM in transformer…
- answerКак работают CUDA graphs и когда их использовать?
…долю от total [[Вики/inference time\|inference time]]. [[Вики/profiling\|Профилирование]] через `[[Вики/ncu\|ncu]] --set [[Вики/full compatibility\|full…
- answerКак работает asynchronous execution на Hopper (copy engine vs compute)?
…обычно 2–4 достаточно. - [[Вики/profiling\|Профилирование]]: используйте `nsys` (NVIDIA Nsight Systems) для визуализации overlap. --- ## 8. Пет-проект для закрепления…
- answerЧто такое Cost Engineering для LLM-систем?
…1. [[Вики/profiling\|Профилирование]] нагрузки – пики (например, утренние часы), [[Вики/seasonality\|сезонность]]. 2. [[Вики/benchmark\|Бенчмаркинг]] производительности – сколько запросов обрабатывает…
- answerКак организовать GPU scheduling для multi-tenant LLM serving?
…Минусы - Ограниченное количество инстансов (до 7). - Не все модели поддерживают работу на малых инстансах (требуется [[Вики/profiling\|профилирование]]). - Настройка и…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить sharding для petabyte embeddings
…можно с реплик) | | Сложность отладки производительности | Включить профайлинг Qdrant (`profiling: true`); собрать flamegraph через async-profiler | ## 8. Бюджет времени (оценка…
- answerКак вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)?
…warp]]'ы ждут данные из памяти или синхронизации. [[Вики/profiling\|Профилирование]] даёт численные метрики, на основе которых принимаются решения: увеличить…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать selective scan (Mamba)
…tradeoffs | | 310 | Writing fused kernels for recurrent operations | | 415 | Profiling CUDA kernels (Nsight) | | 520 | Mixed precision training with custom kernels…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать GPU utilization падение
…Выполните [[Вики/profiling\|профилирование]] с `[[Вики/nsys\|nsys]]` ```bash nsys profile --trace-fork-before-exec=true -o profile_infer.qdsh…
- answerКак дебажить memory fragmentation в LLM сервере?
…4. [[Вики/profiling\|Профилирование]] — запускаем `nsys profile` на 10 минутах нормальной нагрузки. Ищем частые вызовы `cudaMalloc` и их длительность. 5…
- answerЧто такое warp divergence в CUDA и как он влияет на attention?
…влияние [[Вики/divergence\|divergence]] на [[Вики/occupancy\|occupancy]]. - [[Вики/profiling\|Профилирование]]: счётчики `branch_efficiency`, `divergent_branch`. Типичные [[Вики/Value\|значения…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral
…models | | 215 | (текущая) — Expert parallelism for Mixtral | | 220 | Memory profiling with `torch.cuda.max_memory_allocated` | | 301 | FlashAttention with MoE…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…4. [[Вики/profiling\|Профилирование]] — запустить `nsys` для FP8 и найти узкие места (например, кастомизированные операции, не покрытые TE). 5. Включить…
- answerКак вы дебажите медленную меж-GPU коммуникацию в multi-node инференсе?
…с `[[Вики/NCCL_DEBUG\|NCCL_DEBUG]]=INFO` и [[Вики/profiling\|профилирование]] с помощью [[Вики/nsys\|Nsight Systems]]. Ключевые рычаги — выбор…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать network congestion на 64 GPU
…Выложить артефакты в Git-репозиторий (папка `network_profiling/`). Ожидаемый результат этапа - Markdown-документ `network_congestion_report.md`. - Папка `figures/` с…
- answerКак вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные?
…recall@k]] при фиксированном бюджете [[Вики/Latency\|latency]]. - [[Вики/profiling\|Профилирование]] памяти используйте `[[Вики/Faiss\|faiss]].index_memory` или `sys…
- answerКак вы защищаете multi-agent систему от вредоносного агента?
…Если кто-то пытается взаимодействовать с [[Вики/Honeypot\|honeypot]], это [[Вики/signal\|сигнал]] тревоги. - [[Вики/Behavioral profiling\|Поведенческие профили]] — [[Вики…
- answerКак организовать feature store для AI (Feast, Hopsworks)?
…N запросов, текущее [[Вики/state\|состояние]] диалога, [[Вики/Behavioral profiling\|поведенческие профили]]). ## 2. Архитектура feature store: offline, online, point-in…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить mmap для embeddings
…Оптимизация производительности (2-3 часа) Действия 1. [[Вики/profiling\|Профилирование]] текущей реализации ```python import time from memory_profiler import memory…
- wikiИндекс терминов
…cloning]] - [[Вики/Behavior Drift|Behavior Drift]] - [[Вики/Behavioral profiling|Behavioral profiling]] - [[Вики/Behavioral testing|Behavioral testing]] - [[Вики/BEIR|BEIR]] - [[Вики…