Поиск

wikimemory fragmentation
# memory fragmentation ## Определение Неэффективное использование памяти из-за разрозненных блоков (например, KV-кэша). Решается с помощью PagedAttention, снижая фрагментацию с…
wikitorch memory stats
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikitorch.cuda.memory_summary
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikiexpandable_segments
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikimax_split_size_mb
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikicudaMallocAsync
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikiPYTORCH_CUDA_ALLOC_CONF
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikitorch.cuda.empty_cache
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikipy-spy
…Косвенно используется для дебага memory fragmentation. ## Где встречается - [[846. Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory…
wikitorch.cuda.memory_snapshot
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikicudaFree
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…
wikicudaMalloc
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…
wikirecord_shapes
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…
wikirolling restart
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikiTORCH_DISTRIBUTED_DEBUG
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…
wikicuda_malloc_count
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…
wikinum_alloc_retries
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…
wikiallocated_bytes / reserved_bytes
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…
wikinvidia-smi
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikiCUDA caching allocator
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikiFlexGen
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера? ## Краткий тезис [[Вики/memory fragmentation\|Memory fragmentation]] ([[Вики/memory fragmentation…
wikipsutil
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[11. Конвертировать датасет из JSONL…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать memory fragmentation на GPU
…Профилировать memory fragmentation на GPU ## 1. Цель задачи Научиться программно измерять фрагментацию памяти CUDA в PyTorch с помощью `torch.cuda…
wikiSlack
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[Практика|Практика]] - [[26. Реализовать SLO…
wikiOffloading
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера? ## Краткий тезис [[Вики/memory fragmentation\|Memory fragmentation]] ([[Вики/Фрагментация\|фрагментация…
answerКак дебажить memory fragmentation в LLM сервере?
…Memory fragmentation (фрагментация памяти) [[Вики/memory fragmentation\|Memory fragmentation]] — [[Вики/state\|состояние]], при котором свободная [[Вики/Memory\|память]] разбита на…
wikioccupancy
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikiOOM
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[863. Как проектировать Airflow DAG…
wikiPagerDuty
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[Практика|Практика]] - [[2. Написать RDMA…
wikinsys
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[Практика|Практика]] - [[800+ вопросов|800…
wikiTriton Inference Server
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikiMatplotlib
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[9. Профилировать network congestion на…
wikibeam search
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikiTGI
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[Практика|Практика]] - [[800+ вопросов|800…
wikiTensorRT-LLM
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikigraceful shutdown
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[896. Как сделать агента самовосстанавливающимся…
wikiPaged Attention
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikiGrafana
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
wikicontinuous batching
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера\|452]] | Как работает PagedAttention в vLLM? | | [[454. Что такое prompt…
answerКак вы дебажите низкую GPU utilization (например, 40% на A100)?
…снижает memory reads/writes в attention. - [[Вики/Paged Attention\|PagedAttention]] (vLLM) — эффективное управление KV cache, уменьшает memory fragmentation. - FP8/INT8…
answerКак вы делаете load testing для LLM endpoint? Какие метрики ключевые?
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера\|452]] | Мониторинг LLM endpoint в реальном времени | | [[453. Как работает…
answerЧто такое memory-efficient attention для long context на 8x H100?
…блок фиксированного размера\|блок]] только при необходимости. [[Вики/memory fragmentation\|Memory fragmentation]] < 5% — за счёт того, что блоки маленькие и…
answerКак работает PagedAttention в vLLM внутренне?
…приводит к сильной фрагментации. **Термин «[[Вики/memory fragmentation\|Фрагментация памяти]]»** — ситуация, когда [[Вики/Memory\|память]] разбита на множество маленьких свободных…
answerКак вы разворачиваете LLM в production (self-hosted)?
…memory fragmentation\|Memory fragmentation]] | Paged attention (vLLM) решает; также можно перезапускать инстанс каждые несколько часов | | **OOM (out‑of‑memory)** | Уменьшить…
answerКак вы делаете load testing для LLM endpoint? Какие метрики ключевые?
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера\|217]] - Индекс: [[00. Индекс разборов]]
answerКак работают CUDA graphs и когда их использовать?
…Как дебажить memory fragmentation в LLM сервере\|846]] - Индекс: [[00. Индекс разборов]]
answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера\|217]] | Архитектура TGI: компоненты и pipeline | | [[219. Что такое prompt…