Поиск
- wikiprofiling
# profiling ## Определение Процесс сбора данных о производительности, включая замеры latency, использования памяти и GPU, для оптимизации системы. ## Где встречается - [[3…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать GPU utilization падение
…Технологический стек | Компонент | Инструменты | Назначение | |------------------------|-----------------------------------------------|-------------------------------------------------------------------| | Профилирование GPU | NVIDIA Nsight Systems (`nsys`), Nsight Compute (`ncu`) | Захват трассировки, идентификация узких мест в…
- answerКак вы дебажите низкую GPU utilization (например, 40% на A100)?
…Системное профилирование (nsys) ```bash nsys profile -o trace -t cuda,nvtx python run.py ``` В Nsight Systems ищем: - Большие промежутки…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…Базовый FP16 инференс и профилирование (1–2 часа) Действия 1. Реализовать функцию инференса в [[Вики/FP16\|FP16]] ```python @torch.inference…
- answerКак вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)?
…Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)? ## Краткий тезис Профилирование GPU utilization для LLM serving — это…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать негативные эффекты reranker
…key=lambda x: -x[0])] ``` 3. [[Вики/Добавить профилирование\|Добавить профилирование]] времени каждого этапа. [[Вики/Ожидаемый результат этапа\|Ожидаемый результат…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить CUDA graphs для коротких запросов
…cuda.CUDAGraph`, `torch.cuda.graph` | Запись и воспроизведение графа | | Профилирование | `torch.cuda.Event`, `timeit` | Замеры latency | | Визуализация | Matplotlib + pandas (опционально…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить mmap для embeddings
…Оптимизация производительности (2-3 часа) Действия 1. [[Вики/profiling\|Профилирование]] текущей реализации ```python import time from memory_profiler import memory…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать cost-aware caching для дорогих ответов GPT-4
…Анализ логов и профилирование стоимости (30 минут) Действия 1. Собрать [[Вики/logs\|логи]] реальных запросов (или использовать сгенерированные). Убедиться, что…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать memory fragmentation на GPU
…Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | Язык программирования | Python 3.10+ | Скриптинг | | Фреймворк ML | PyTorch (с CUDA) | Загрузка/инференс моделей, профилирование…
- answerКак работают CUDA graphs и когда их использовать?
…от total [[Вики/inference time\|inference time]]. [[Вики/profiling\|Профилирование]] через `[[Вики/ncu\|ncu]] --set [[Вики/full compatibility\|full]]` покажет…
- answerКак работает asynchronous execution на Hopper (copy engine vs compute)?
…обычно 2–4 достаточно. - [[Вики/profiling\|Профилирование]]: используйте `nsys` (NVIDIA Nsight Systems) для визуализации overlap. --- ## 8. Пет-проект для закрепления…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настройка AWQ квантизации для LLM
…алгоритма | | Замер качества | `evaluate`, `lm-eval-harness` | Perplexity, accuracy | | Профилирование | `nvidia-ml-py`, `torch.cuda.memory_summary()` | Память и время…
- answerЧто такое pipeline parallelism и проблема pipeline bubbles?
…Способы борьбы: - Перераспределение слоёв: `torch.distributed.pipeline.sync.Pipeline` в PyTorch использует динамическое профилирование. - Разбивка одного слоя на несколько стадий…
- answerКак дебажить memory fragmentation в LLM сервере?
…Дебаг включает мониторинг `memory stats|torch.cuda.memory stats|memory_stats()`, профилирование `nsys` и использование решений вроде **Attention|Paged Attention…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать Bloom filter для retrieval
…mmh3` (MurmurHash3) или `hashlib.md5` | Для расчёта позиций битов | | Профилирование | `timeit`, `cProfile`, `memory_profiler` | Измерение времени и памяти | | Визуализация | `matplotlib…
- answerКак PCIe bottleneck проявляется в multi-GPU инференсе?
…в основном при TP и PP. --- ## 7. Измерение bottleneck: профилирование и метрики Для обнаружения [[Вики/PCIe bottleneck\|PCIe bottleneck]] используют…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать NUMA влияние на latency
…Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 45 | NUMA архитектура и топология | | 67 | Латентность оперативной памяти и кэша | | 89 | Профилирование…
- answerКак вы дебажите медленную меж-GPU коммуникацию в multi-node инференсе?
…Вики/NCCL_DEBUG\|NCCL_DEBUG]]=INFO` и [[Вики/profiling\|профилирование]] с помощью [[Вики/nsys\|Nsight Systems]]. Ключевые рычаги — выбор протокола…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить chunked prefill для long context (32k токенов, TTFT -60%)
…Глубокий анализ и профилирование (1 час) Действия 1. Включить логирование vLLM Добавить `--log-requests` и `--log-stats` при запуске. Собирать…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить Hyena vs FlashAttention на 128k
…оператор свертки и субквадратичное внимание | | 114 | Сравнение архитектур внимания по памяти | | 115 | Профилирование GPU памяти в PyTorch | | 121 | Выбор head…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить производительность NCCL ring и tree алгоритмов на разном масштабе GPU
…скрипт | Графики bandwidth vs #GPU, latency vs size | | Опционально: профилирование | NVIDIA Nsight Systems (nsys) | Подробный трейс вызовов NCCL | ## 4. Этапы…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать semantic cache для LLM
…промахе кэша | | Оркестрация | Python, asyncio | Кэш-клиент (проверка + вставка) | | Профилирование | `time`, `matplotlib`, `pandas` | Оценка hit rate, latency, экономии | --- ## 4. Этапы…
- answerКак вы диагностируете, что проблема в memory bandwidth, а не в compute?
…Инструменты профилирования | Инструмент | Назначение | Ключевые метрики | |------------|------------|------------------| | [[Вики/nsys\|NVIDIA Nsight Systems]] | Системное профилирование | Timeline, utilization, memory throughput | | [[Вики/ncu\|NVIDIA…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать distributed task queue для агентов
…повторной отправки задач | | 450 | Конкурентное выполнение многоагентных систем | | 522 | Профилирование производительности очередей | | 688 | Безопасность распределённых задач | ## 10. Чек-лист самопроверки…
- answerКак работает Torch Compile (torch.compile) и в чем его ограничения для LLM?
…Что такое ONNX Runtime и когда он выгоден для LLM\|320]] | Профилирование и бенчмаркинг LLM | | [[322. Что такое operator fusion…
- answerЧто такое bank conflicts в shared memory и как их избежать?
…Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации\|710]] | Профилирование CUDA ядер | | [[712. Что такое Cooperative…
- answerЧто такое Cost Engineering для LLM-систем?
…1. [[Вики/profiling\|Профилирование]] нагрузки – пики (например, утренние часы), [[Вики/seasonality\|сезонность]]. 2. [[Вики/benchmark\|Бенчмаркинг]] производительности – сколько запросов обрабатывает…
- answerКак организовать GPU scheduling для multi-tenant LLM serving?
…Минусы - Ограниченное количество инстансов (до 7). - Не все модели поддерживают работу на малых инстансах (требуется [[Вики/profiling\|профилирование]]). - Настройка и…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить sharding для petabyte embeddings
…стратегии и trade-offs | | 189 | Consistent hashing для распределённых систем | | 231 | Профилирование latency в распределённых системах | | 305 | Нагрузочное тестирование векторных…
- answerКак делать property-based testing для агентов?
…agent.query(query, tool) self.cache[query] = result ``` --- ## 7. Профилирование и метрики покрытия [[Вики/property-based testing\|Property-based testing…
- answerNVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?
…Observability и мониторинг AI-агентов?\|714]] | Мониторинг — unified memory упрощает профилирование памяти | --- ## 10. Навигация (Obsidian) - Предыдущий: [[708. Архитектура Agentic RAG…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть vLLM на 8 GPU с Tensor Parallelism и замерить throughput
…Запустить профилирование с `NCCL_DEBUG=INFO`. | | Нестабильный throughput при малом числе запросов | Увеличить число промптов до 500, добавить прогрев в…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать selective scan (Mamba)
…Подключение кастомного CUDA кода | | Тестирование | pytest, NumPy | Верификация результатов | | Профилирование (опционально) | nvprof / Nsight Compute | Оптимизация производительности | --- ## 4. Этапы выполнения ### Этап…
- answerКак работает FlashAttention-3 математически?
…внимания для длинных контекстов (Sparse Attention, Linear Attention) | | 836 | Профилирование LLM на GPU с помощью Nsight | --- ## Навигация (Obsidian) - Предыдущий: [[843…
- answerКак работает динамическое бэтчирование в TGI vs vLLM?
…требования к latency | | [[840]] | Кэширование KV-кэша в агентах | | [[853]] | Профилирование инференс-сервера в production | --- ## Навигация (Obsidian) - Предыдущий: [[847. Как…
- answerЧто такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они?
…PyTorch, Hugging Face Transformers (для baseline), CUDA профилирование (nvcc, torch.cuda). **Шаги**: 1. Возьмите готовую малую модель (например, GPT-2…
- answerЧто такое torch.compile и как он ускоряет training?
…Как работает FlashAttention для training (не только inference)\|474]] | Профилирование производительности PyTorch (torch.profiler) | | [[475. Почему tokenizer влияет на стоимость…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать pinned memory аллокатор
…пропускную способность | | 567 | Использование `cudaMemcpyAsync` для неблокирующей передачи | | 678 | Профилирование приложений CUDA (Nsight Systems) | | 789 | Работа с PyCUDA — обёртка над…
- answerЧто такое 3D parallelism (data + tensor + pipeline)?
…запустить профилирование с разными комбинациями, измерить throughput и memory per GPU. --- ## 8. Преимущества и недостатки | Преимущества | Недостатки | |--------------|------------| | Позволяет обучать модели…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить архитектуры на reasoning задачах (Mamba vs Transformer vs RWKV vs Hyena)
…и самописные скрипты | Accuracy, F1 (для многовариантных), latency, memory | | Профилирование | `torch.cuda.max_memory_allocated`, `time.perf_counter` | Измерение ресурсов…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить NVLink topology для 8× GPU
…0, 3.0 | | 81 | Инструменты выявления NUMA-конфликтов | | 103 | Профилирование коллективных операций NCCL | | 118 | Сравнение NVSwitch и NVLink mesh | | 205…
- answerКак устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс?
…результата. Используется в оптимизированных библиотеках (cuBLAS, CUTLASS). --- ## 6. Пример: профилирование memory-bound операции в PyTorch ```python import torch import time…
- answerКак вы передаёте контекст между несколькими агентами (multi-agent system)?
…state между узлами, и как AutoGen управляет историей сообщений. - Профилирование производительности: сколько времени занимает передача контекста. --- ## 11. Связь с другими…
- answerКак проектировать data contracts для RAG пайплайна?
…Инструменты для реализации | Инструмент | Назначение | Пример использования | |------------|------------|----------------------| | [[Вики/Great Expectations\|Great Expectations]] | Профилирование и валидация данных в пайплайне | Проверка, что…
- answerКак вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM?
…Запустить профилирование: `nsys profile -o vllm_profile python -c "from vllm import LLM; llm = LLM('meta-llama/Llama-2-7b…
- answerЧто такое warp divergence в CUDA и как он влияет на attention?
…Вики/divergence\|divergence]] на [[Вики/occupancy\|occupancy]]. - [[Вики/profiling\|Профилирование]]: счётчики `branch_efficiency`, `divergent_branch`. Типичные [[Вики/Value\|значения]] - В…
- answerПочему decode stage плохо batchится?
…включить профилирование через PyTorch profiler, чтобы увидеть, где тратится время (memory copy vs. compute). --- ## Связь с другими вопросами | Вопрос | Тема…
- answerКак вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)?
…Инструменты для измерения и мониторинга - Профилирование latency: `time` в Python, `cProfile`, middleware в веб-фреймворках (например, `starlette.middleware`). - [[Вики/мониторинг…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать RDMA-читалку для KV cache
…RC-соединения между узлами | | Сборка | Makefile / CMake | Автоматизация компиляции | | Профилирование | perf, ibv_asyncwatch | Измерение latency, мониторинг ошибок | | Генерация данных | dd…