Поиск

  • wikimemory fragmentation

    # memory fragmentation ## Определение Неэффективное использование памяти из-за разрозненных блоков (например, KV-кэша). Решается с помощью PagedAttention, снижая фрагментацию с…

  • wikitorch memory stats

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikitorch.cuda.memory_summary

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikiexpandable_segments

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikimax_split_size_mb

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikicudaMallocAsync

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikiPYTORCH_CUDA_ALLOC_CONF

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikitorch.cuda.empty_cache

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikipy-spy

    …Косвенно используется для дебага memory fragmentation. ## Где встречается - [[846. Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory

  • wikitorch.cuda.memory_snapshot

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikicudaFree

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikicudaMalloc

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikirecord_shapes

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikirolling restart

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikiTORCH_DISTRIBUTED_DEBUG

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikicuda_malloc_count

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikinum_alloc_retries

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikiallocated_bytes / reserved_bytes

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] ## Навигация - [[00. Индекс терминов|Индекс…

  • wikinvidia-smi

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikiCUDA caching allocator

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikiFlexGen

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера? ## Краткий тезис [[Вики/memory fragmentation\|Memory fragmentation]] ([[Вики/memory fragmentation

  • wikipsutil

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[11. Конвертировать датасет из JSONL…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать memory fragmentation на GPU

    …Профилировать memory fragmentation на GPU ## 1. Цель задачи Научиться программно измерять фрагментацию памяти CUDA в PyTorch с помощью `torch.cuda…

  • wikiSlack

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[Практика|Практика]] - [[26. Реализовать SLO…

  • wikiOffloading

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера? ## Краткий тезис [[Вики/memory fragmentation\|Memory fragmentation]] ([[Вики/Фрагментация\|фрагментация…

  • answerКак дебажить memory fragmentation в LLM сервере?

    Memory fragmentation (фрагментация памяти) [[Вики/memory fragmentation\|Memory fragmentation]] — [[Вики/state\|состояние]], при котором свободная [[Вики/Memory\|память]] разбита на…

  • wikioccupancy

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikiOOM

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[863. Как проектировать Airflow DAG…

  • wikiPagerDuty

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[Практика|Практика]] - [[2. Написать RDMA…

  • wikinsys

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[Практика|Практика]] - [[800+ вопросов|800…

  • wikiTriton Inference Server

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikiMatplotlib

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[9. Профилировать network congestion на…

  • wikibeam search

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikiTGI

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[Практика|Практика]] - [[800+ вопросов|800…

  • wikiTensorRT-LLM

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikigraceful shutdown

    …Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[896. Как сделать агента самовосстанавливающимся…

  • wikiPaged Attention

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikiGrafana

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • wikicontinuous batching

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…

  • answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера\|452]] | Как работает PagedAttention в vLLM? | | [[454. Что такое prompt…

  • answerКак вы дебажите низкую GPU utilization (например, 40% на A100)?

    …снижает memory reads/writes в attention. - [[Вики/Paged Attention\|PagedAttention]] (vLLM) — эффективное управление KV cache, уменьшает memory fragmentation. - FP8/INT8…

  • answerКак вы делаете load testing для LLM endpoint? Какие метрики ключевые?

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера\|452]] | Мониторинг LLM endpoint в реальном времени | | [[453. Как работает…

  • answerЧто такое memory-efficient attention для long context на 8x H100?

    …блок фиксированного размера\|блок]] только при необходимости. [[Вики/memory fragmentation\|Memory fragmentation]] < 5% — за счёт того, что блоки маленькие и…

  • answerКак работает PagedAttention в vLLM внутренне?

    …приводит к сильной фрагментации. **Термин «[[Вики/memory fragmentation\|Фрагментация памяти]]»** — ситуация, когда [[Вики/Memory\|память]] разбита на множество маленьких свободных…

  • answerКак вы разворачиваете LLM в production (self-hosted)?

    memory fragmentation\|Memory fragmentation]] | Paged attention (vLLM) решает; также можно перезапускать инстанс каждые несколько часов | | **OOM (out‑of‑memory)** | Уменьшить…

  • answerКак вы делаете load testing для LLM endpoint? Какие метрики ключевые?

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера\|217]] - Индекс: [[00. Индекс разборов]]

  • answerКак работают CUDA graphs и когда их использовать?

    …Как дебажить memory fragmentation в LLM сервере\|846]] - Индекс: [[00. Индекс разборов]]

  • answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?

    …Как вы управляете memory fragmentation при длительном раннинге LLM сервера\|217]] | Архитектура TGI: компоненты и pipeline | | [[219. Что такое prompt…