Поиск
- wikigraph optimization
…вычислительному графу модели для уменьшения времени выполнения и использования памяти. Ключевая техника в LLM компиляторах и ONNX Runtime. ## Где встречается…
- wikiIO-awareness
…таких как FlashAttention, при котором оптимизация производится с учётом операций ввода-вывода между уровнями памяти. ## Где встречается - [[54. Сравнить Hyena…
- wikiMemory Pattern
# Memory Pattern ## Определение Оптимизация переиспользования буферов для промежуточных результатов, снижающая пиковое потребление памяти при инференсе. Применяется в компиляторах типа ONNX…
- wikiFlashDecoding
# FlashDecoding ## Определение Оптимизация для инференса LLM, которая ускоряет чтение/запись KV cache и частично скрывает задержки памяти при генерации одного…
- wikiL2 Cache
…памятью; ключевая оптимизация для хранения KV-кэша при длинных контекстах. ## Где встречается - [[301. Как устроена иерархия памяти GPU (Global, L2…
- answerПочему KV cache растет линейно с длиной контекста и как это оптимизировать?
…Размер кэша прямо пропорционален длине контекста, числу слоёв, голов внимания и разрядности данных, что приводит к гигантским требованиям к памяти…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить mmap для embeddings
…10})) print(f'Пиковое потребление памяти: {max(mem_usage):.2f} МБ') ``` 2. Оптимизация размера чанка - Экспериментировать с `[[Вики/chunking\|chunk…
- wikiZeRO
# ZeRO ## Определение Техника оптимизации памяти для распределённого обучения LLM, шардирующая состояние оптимизатора, градиенты и параметры между GPU. Позволяет обучать большие…
- answerКак работает selective activation recomputation?
…Зачем нужна оптимизация памяти в LLM Современные [[Вики/LLM\|LLM]] (например, [[Вики/GPT-3\|GPT-3]], [[Вики/Transformer\|LLaMA]]) содержат…
- answerКак speculative decoding ускоряет inference? (детально)
…Что такое Guided Decoding и как оно связано с JSON schema\|213]] | KV cache management и оптимизация памяти | | [[214. Как…
- answerScaNN (Google) vs HNSW — сравнение для больших масштабов (>100M векторов)?
…Выбор между ними зависит от конкретных требований к [[Вики/Latency\|latency]], памяти и точности. --- ## 1. Терминология: ANN, recall, latency, quantization…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать memory fragmentation на GPU
…Цель задачи Научиться программно измерять фрагментацию памяти CUDA в PyTorch с помощью `torch.cuda.memory_stats()`. Выявить источники фрагментации в…
- answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…MI300X выигрывает в задачах с длинным контекстом и крупными батчами, где узким местом становится пропускная способность памяти. H100 остаётся лидером…
- answerЧто такое memory coalescing и почему оно важно для attention?
…32 потока выполняют одну инструкцию одновременно ([[Вики/SIMT\|SIMT]]). - [[Вики/transaction\|Транзакция]] памяти — минимальный объём данных, который [[Вики/GPU\|GPU…
- answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?
…Adam, lr=1e-4, parameters_as_bucket_view=True, # оптимизация памяти ) # Цикл обучения for data, target in dataloader: optimizer.zero…
- answerЧто такое torch.compile и как он ускоряет training?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Оптимизация памяти при обучении (градиентный чекпоинтинг, аккумуляция градиентов) | | [[471. Как…
- answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…промежуточных результатов | Снижает пиковое потребление памяти | Для [[Вики/GPT-4o\|LLM]] особенно важна **оптимизация [[Вики/Attention\|attention]]**: [[Вики/ONNX Runtime…
- answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Это позволяет: - Снизить сложность по памяти с O(N²) до O(N) (N — [[Вики/context window\|длина последовательности]]). - Ускорить вычисления…
- answerКак работает grouped-query attention (GQA) и как trade-off speed/quality?
…Связь с другими механизмами внимания [[Вики/Grouped-Query Attention\|GQA]] — не единственная оптимизация. Есть также: - [[Вики/FlashAttention\|FlashAttention]] (алгоритмическая оптимизация…
- answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…Ключевая инновация — [[Вики/Paged Attention\|PagedAttention]] (аналог виртуальной памяти для [[Вики/KV-cache\|KV-cache]]), позволяющая эффективно управлять памятью при…
- answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…Зачем нужен компилятор - [[Вики/graph optimization\|Оптимизация графа]]: [[Вики/Fusing\|слияние]] операций]] ([[Вики/kernel fusion\|fusion]]), удаление избыточных операций ([[Вики…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать RDMA-читалку для KV cache
…Вы научитесь работать с [[Вики/libibverbs\|libibverbs]], регистрацией памяти и односторонними RDMA-операциями ([[Вики/RDMA Read\|RDMA Read]]). Ключевой результат…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral
…производительности записаны, пиковое использование памяти на каждой GPU не превышает доступного объёма. --- ### Этап 4: Оптимизация и повторное тестирование (45 мин…
- answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
…Для достижения таких показателей необходима горизонтальная масштабируемость (добавление узлов), **кэширование**, геораспределение и оптимизация каждого этапа RAG-пайплайна. --- ## 2. Общая архитектура…
- answerКак вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)?
…трассировка вызовов CUDA, CPU-GPU взаимодействие, использование памяти | Системный | Актуальный | | [[Вики/ncu\|ncu]] (NVIDIA Nsight Compute) | Детальный анализ отдельных CUDA…
- answerКак устроен KV cache? Почему он bottleneck?
…PagedAttention]] | не уменьшает | нет (организация памяти) | управление страницами | | [[Вики/FlashAttention\|FlashAttention]] | не уменьшает | нет | оптимизация вычислений | --- ## 8. Связь с архитектурой…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с памятью через векторную БД
…Тестирование памяти | 1 ч | | 5. Оптимизация и документация | 30 мин | | Итого | 4 ч 15 мин | Примечание Если выполняете задачу первый…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить high-cardinality metrics в VictoriaMetrics
…хранит миллионы временных рядов без деградации памяти (сравнить с Prometheus). --- ### Этап 4: Оптимизация и downsampling (30 мин) [[Вики/Действия\|Действия…
- answerКак работает FlashAttention для training (не только inference)?
…Это приводит к затратам памяти O(n²). Например, при n = 100k и [[Вики/Quantization\|float16]] (2 байта на элемент) одна…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать GPU utilization падение
…DataLoader bottlenecks и CPU-GPU синхронизация | | 97 | Оптимизация batch size и памяти | | 123 | Mixed Precision Training (AMP) | | 201 | Kernel launch…
- answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?
…Дополнительно Добавьте метрику «эффективное использование памяти» (доля реально используемой памяти от выделенной). --- ## Связь с другими вопросами | Вопрос | Тема | |--------|------| | [[216. Как…
- answerКакую LLM вы выберете для "быстрых" (<200ms) простых задач классификации?
…Почему не любая [[Вики/LLM\|LLM]] Большие авторегрессивные модели (7B+ параметров) даже с оптимизациями редко дают задержку ниже 200 мс…
- answerКак работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?
…квадратичная сложность и память **Self-attention** в трансформерах имеет сложность O(n²) по времени и памяти, где n — длина последовательности…
- answerКак вы выбираете между online и batch инференсом для LLM?
…batch size\|batch size]] = 1). - [[Вики/Paged Attention\|PagedAttention]] — оптимизация памяти для [[Вики/KV-cache\|KV-cache]]. Пример конфигурации online…
- answerКак работает graph optimization в LLM компиляторах (constant folding, dead code elimination)?
…Что такое LLM компиляторы и зачем нужна оптимизация графа [[Вики/LLM\|LLM]] компилятор — это специализированная программа, которая преобразует высокоуровневое описание…
- answerВ чем разница между prefill и decode stage в LLM инференсе?
…Почему это важно: - Разные стадии имеют разные профили нагрузок на вычислительное оборудование (GPU/TPU). - Оптимизация каждой стадии критически влияет на…
- answerКак вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
…уменьшает объём памяти и ускоряет decode за счёт снижения latency доступа к памяти. ### 4.3 Flash Decoding Оптимизация decode через…
- answerЧем AWQ отличается от GPTQ?
…Цель — снизить [[Вики/memory footprint\|объём памяти]] и ускорить вычисления на современном оборудовании ([[Вики/GPU\|GPU]], NPU). Существует два основных…
- answerКак вы измеряете эффективность speculative decoding?
…Ключевые метрики: **[[Вики/Memory Overhead Ratio\|MOR]] ([[Вики/Memory\|Memory]] [[Вики/overhead\|Overhead]] Ratio)** — отношение памяти [[Вики/KV-cache\|KV…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать selective scan (Mamba)
…Оптимизация (опциональный, 1–2 часа) Действия 1. Использовать профилировщик Nsight Compute для выявления узких мест. 2. Оптимизировать доступ к памяти…
- answerКак вы разворачиваете LLM в production (self-hosted)?
…уменьшает использование GPU‑памяти. - [[Вики/Paged Attention\|PagedAttention]] (собственный) — эффективное управление KV‑cache. **Continuous batching** — ключевая оптимизация vLLM, которая позволяет…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…Использовать `te.Sequential` вместо стандартного forward — оптимизация памяти. 4. [[Вики/profiling\|Профилирование]] — запустить `nsys` для FP8 и найти узкие места…
- answerКак дебажить memory fragmentation в LLM сервере?
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера\|217]] | Оптимизация памяти через Paged Attention и vLLM | | [[220. Как…
- answerКак работает prefix caching и prompt caching у провайдеров?
…Это превращает [[Вики/Quadratic bottleneck\|O(n²) сложность]] в O(n) на шаг декодирования, но требует памяти ~ O(n) на…
- answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Решение TGI Используется [[Вики/Block-based allocation\|блочное выделение памяти]] (block-based allocation) — KV cache разбивается на блоки фиксированного размера…
- answerКак работает XLA (Accelerated Linear Algebra) для LLM на TPU?
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)\|321]] | Оптимизация памяти LLM на TPU (flash attention…
- answerКак работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?
…Скорость доступа к разным уровням памяти различается на порядки: | Уровень памяти | Приблизительная задержка | Пропускная способность (H100) | |----------------|--------------------------|-------------------------------| | Register | <1 нс | ~30…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить cross-encoder reranking
…Уменьшить batch_size для экономии памяти. 4. Сравнить время инференса для разных моделей. Ожидаемый результат этапа Рекомендация по лучшей модели…
- answerКак работает FlashAttention математически (tiling, recomputation, не материализуя S)?
…сложность по памяти снижается с `O(n²)` до `O(n)`, а скорость вычислений увеличивается в 2–4 раза за счёт…
- answerКак масштабировать vLLM на несколько GPU/нод?
…архитектура, PagedAttention | | 815 | Оптимизация памяти KV cache в vLLM (prefix caching) | | 825 | Балансировка нагрузки для LLM inference | | 830 | InfiniBand vs…