Поиск
- wikimemory fragmentation
# memory fragmentation ## Определение Неэффективное использование памяти из-за разрозненных блоков (например, KV-кэша). Решается с помощью PagedAttention, снижая фрагментацию с…
- wikitorch memory stats
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikitorch.cuda.memory_summary
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikiexpandable_segments
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikimax_split_size_mb
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikicudaMallocAsync
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikiPYTORCH_CUDA_ALLOC_CONF
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikitorch.cuda.empty_cache
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikipy-spy
…Косвенно используется для дебага memory fragmentation. ## Где встречается - [[846. Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory…
- wikitorch.cuda.memory_snapshot
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikicudaFree
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikicudaMalloc
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikirecord_shapes
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikirolling restart
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikiTORCH_DISTRIBUTED_DEBUG
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikicuda_malloc_count
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikinum_alloc_retries
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiallocated_bytes / reserved_bytes
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikinvidia-smi
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikiCUDA caching allocator
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikiFlexGen
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера? ## Краткий тезис [[Вики/memory fragmentation\|Memory fragmentation]] ([[Вики/memory fragmentation…
- wikipsutil
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[11. Конвертировать датасет из JSONL…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать memory fragmentation на GPU
…Профилировать memory fragmentation на GPU ## 1. Цель задачи Научиться программно измерять фрагментацию памяти CUDA в PyTorch с помощью `torch.cuda…
- wikiSlack
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[Практика|Практика]] - [[26. Реализовать SLO…
- wikiOffloading
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера? ## Краткий тезис [[Вики/memory fragmentation\|Memory fragmentation]] ([[Вики/Фрагментация\|фрагментация…
- answerКак дебажить memory fragmentation в LLM сервере?
…Memory fragmentation (фрагментация памяти) [[Вики/memory fragmentation\|Memory fragmentation]] — [[Вики/state\|состояние]], при котором свободная [[Вики/Memory\|память]] разбита на…
- wikioccupancy
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikiOOM
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[863. Как проектировать Airflow DAG…
- wikiPagerDuty
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[Практика|Практика]] - [[2. Написать RDMA…
- wikinsys
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[Практика|Практика]] - [[800+ вопросов|800…
- wikiTriton Inference Server
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikiMatplotlib
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[9. Профилировать network congestion на…
- wikibeam search
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikiTGI
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[Практика|Практика]] - [[800+ вопросов|800…
- wikiTensorRT-LLM
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikigraceful shutdown
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[896. Как сделать агента самовосстанавливающимся…
- wikiPaged Attention
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikiGrafana
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- wikicontinuous batching
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
- answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера\|452]] | Как работает PagedAttention в vLLM? | | [[454. Что такое prompt…
- answerКак вы дебажите низкую GPU utilization (например, 40% на A100)?
…снижает memory reads/writes в attention. - [[Вики/Paged Attention\|PagedAttention]] (vLLM) — эффективное управление KV cache, уменьшает memory fragmentation. - FP8/INT8…
- answerКак вы делаете load testing для LLM endpoint? Какие метрики ключевые?
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера\|452]] | Мониторинг LLM endpoint в реальном времени | | [[453. Как работает…
- answerЧто такое memory-efficient attention для long context на 8x H100?
…блок фиксированного размера\|блок]] только при необходимости. [[Вики/memory fragmentation\|Memory fragmentation]] < 5% — за счёт того, что блоки маленькие и…
- answerКак работает PagedAttention в vLLM внутренне?
…приводит к сильной фрагментации. **Термин «[[Вики/memory fragmentation\|Фрагментация памяти]]»** — ситуация, когда [[Вики/Memory\|память]] разбита на множество маленьких свободных…
- answerКак вы разворачиваете LLM в production (self-hosted)?
…memory fragmentation\|Memory fragmentation]] | Paged attention (vLLM) решает; также можно перезапускать инстанс каждые несколько часов | | **OOM (out‑of‑memory)** | Уменьшить…
- answerКак вы делаете load testing для LLM endpoint? Какие метрики ключевые?
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера\|217]] - Индекс: [[00. Индекс разборов]]
- answerКак работают CUDA graphs и когда их использовать?
…Как дебажить memory fragmentation в LLM сервере\|846]] - Индекс: [[00. Индекс разборов]]
- answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера\|217]] | Архитектура TGI: компоненты и pipeline | | [[219. Что такое prompt…