Поиск

wikigraph optimization
…вычислительному графу модели для уменьшения времени выполнения и использования памяти. Ключевая техника в LLM компиляторах и ONNX Runtime. ## Где встречается…
wikiIO-awareness
…таких как FlashAttention, при котором оптимизация производится с учётом операций ввода-вывода между уровнями памяти. ## Где встречается - [[54. Сравнить Hyena…
wikiMemory Pattern
# Memory Pattern ## Определение Оптимизация переиспользования буферов для промежуточных результатов, снижающая пиковое потребление памяти при инференсе. Применяется в компиляторах типа ONNX…
wikiFlashDecoding
# FlashDecoding ## Определение Оптимизация для инференса LLM, которая ускоряет чтение/запись KV cache и частично скрывает задержки памяти при генерации одного…
wikiL2 Cache
…памятью; ключевая оптимизация для хранения KV-кэша при длинных контекстах. ## Где встречается - [[301. Как устроена иерархия памяти GPU (Global, L2…
answerПочему KV cache растет линейно с длиной контекста и как это оптимизировать?
…Размер кэша прямо пропорционален длине контекста, числу слоёв, голов внимания и разрядности данных, что приводит к гигантским требованиям к памяти…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить mmap для embeddings
…10})) print(f'Пиковое потребление памяти: {max(mem_usage):.2f} МБ') ``` 2. Оптимизация размера чанка - Экспериментировать с `[[Вики/chunking\|chunk…
wikiZeRO
# ZeRO ## Определение Техника оптимизации памяти для распределённого обучения LLM, шардирующая состояние оптимизатора, градиенты и параметры между GPU. Позволяет обучать большие…
answerКак работает selective activation recomputation?
…Зачем нужна оптимизация памяти в LLM Современные [[Вики/LLM\|LLM]] (например, [[Вики/GPT-3\|GPT-3]], [[Вики/Transformer\|LLaMA]]) содержат…
answerКак speculative decoding ускоряет inference? (детально)
…Что такое Guided Decoding и как оно связано с JSON schema\|213]] | KV cache management и оптимизация памяти | | [[214. Как…
answerScaNN (Google) vs HNSW — сравнение для больших масштабов (>100M векторов)?
…Выбор между ними зависит от конкретных требований к [[Вики/Latency\|latency]], памяти и точности. --- ## 1. Терминология: ANN, recall, latency, quantization…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать memory fragmentation на GPU
…Цель задачи Научиться программно измерять фрагментацию памяти CUDA в PyTorch с помощью `torch.cuda.memory_stats()`. Выявить источники фрагментации в…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…MI300X выигрывает в задачах с длинным контекстом и крупными батчами, где узким местом становится пропускная способность памяти. H100 остаётся лидером…
answerЧто такое memory coalescing и почему оно важно для attention?
…32 потока выполняют одну инструкцию одновременно ([[Вики/SIMT\|SIMT]]). - [[Вики/transaction\|Транзакция]] памяти — минимальный объём данных, который [[Вики/GPU\|GPU…
answerКак работает distributed optimizer в PyTorch (torch.distributed.optim)?
…Adam, lr=1e-4, parameters_as_bucket_view=True, # оптимизация памяти ) # Цикл обучения for data, target in dataloader: optimizer.zero…
answerЧто такое torch.compile и как он ускоряет training?
…Что такое DeepSpeed ZeRO-Offload и когда он полезен\|470]] | Оптимизация памяти при обучении (градиентный чекпоинтинг, аккумуляция градиентов) | | [[471. Как…
answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…промежуточных результатов | Снижает пиковое потребление памяти | Для [[Вики/GPT-4o\|LLM]] особенно важна **оптимизация [[Вики/Attention\|attention]]**: [[Вики/ONNX Runtime…
answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Это позволяет: - Снизить сложность по памяти с O(N²) до O(N) (N — [[Вики/context window\|длина последовательности]]). - Ускорить вычисления…
answerКак работает grouped-query attention (GQA) и как trade-off speed/quality?
…Связь с другими механизмами внимания [[Вики/Grouped-Query Attention\|GQA]] — не единственная оптимизация. Есть также: - [[Вики/FlashAttention\|FlashAttention]] (алгоритмическая оптимизация…
answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…Ключевая инновация — [[Вики/Paged Attention\|PagedAttention]] (аналог виртуальной памяти для [[Вики/KV-cache\|KV-cache]]), позволяющая эффективно управлять памятью при…
answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…Зачем нужен компилятор - [[Вики/graph optimization\|Оптимизация графа]]: [[Вики/Fusing\|слияние]] операций]] ([[Вики/kernel fusion\|fusion]]), удаление избыточных операций ([[Вики…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать RDMA-читалку для KV cache
…Вы научитесь работать с [[Вики/libibverbs\|libibverbs]], регистрацией памяти и односторонними RDMA-операциями ([[Вики/RDMA Read\|RDMA Read]]). Ключевой результат…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral
…производительности записаны, пиковое использование памяти на каждой GPU не превышает доступного объёма. --- ### Этап 4: Оптимизация и повторное тестирование (45 мин…
answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
…Для достижения таких показателей необходима горизонтальная масштабируемость (добавление узлов), **кэширование**, геораспределение и оптимизация каждого этапа RAG-пайплайна. --- ## 2. Общая архитектура…
answerКак вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)?
…трассировка вызовов CUDA, CPU-GPU взаимодействие, использование памяти | Системный | Актуальный | | [[Вики/ncu\|ncu]] (NVIDIA Nsight Compute) | Детальный анализ отдельных CUDA…
answerКак устроен KV cache? Почему он bottleneck?
…PagedAttention]] | не уменьшает | нет (организация памяти) | управление страницами | | [[Вики/FlashAttention\|FlashAttention]] | не уменьшает | нет | оптимизация вычислений | --- ## 8. Связь с архитектурой…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с памятью через векторную БД
…Тестирование памяти | 1 ч | | 5. Оптимизация и документация | 30 мин | | Итого | 4 ч 15 мин | Примечание Если выполняете задачу первый…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить high-cardinality metrics в VictoriaMetrics
…хранит миллионы временных рядов без деградации памяти (сравнить с Prometheus). --- ### Этап 4: Оптимизация и downsampling (30 мин) [[Вики/Действия\|Действия…
answerКак работает FlashAttention для training (не только inference)?
…Это приводит к затратам памяти O(n²). Например, при n = 100k и [[Вики/Quantization\|float16]] (2 байта на элемент) одна…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать GPU utilization падение
…DataLoader bottlenecks и CPU-GPU синхронизация | | 97 | Оптимизация batch size и памяти | | 123 | Mixed Precision Training (AMP) | | 201 | Kernel launch…
answerКак вы управляете memory fragmentation при длительном раннинге LLM сервера?
…Дополнительно Добавьте метрику «эффективное использование памяти» (доля реально используемой памяти от выделенной). --- ## Связь с другими вопросами | Вопрос | Тема | |--------|------| | [[216. Как…
answerКакую LLM вы выберете для "быстрых" (<200ms) простых задач классификации?
…Почему не любая [[Вики/LLM\|LLM]] Большие авторегрессивные модели (7B+ параметров) даже с оптимизациями редко дают задержку ниже 200 мс…
answerКак работают современные long-context LLM (GPT-4 1M, Claude 200k, Gemini 2M)?
…квадратичная сложность и память **Self-attention** в трансформерах имеет сложность O(n²) по времени и памяти, где n — длина последовательности…
answerКак вы выбираете между online и batch инференсом для LLM?
…batch size\|batch size]] = 1). - [[Вики/Paged Attention\|PagedAttention]] — оптимизация памяти для [[Вики/KV-cache\|KV-cache]]. Пример конфигурации online…
answerКак работает graph optimization в LLM компиляторах (constant folding, dead code elimination)?
…Что такое LLM компиляторы и зачем нужна оптимизация графа [[Вики/LLM\|LLM]] компилятор — это специализированная программа, которая преобразует высокоуровневое описание…
answerВ чем разница между prefill и decode stage в LLM инференсе?
…Почему это важно: - Разные стадии имеют разные профили нагрузок на вычислительное оборудование (GPU/TPU). - Оптимизация каждой стадии критически влияет на…
answerКак вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
…уменьшает объём памяти и ускоряет decode за счёт снижения latency доступа к памяти. ### 4.3 Flash Decoding Оптимизация decode через…
answerЧем AWQ отличается от GPTQ?
…Цель — снизить [[Вики/memory footprint\|объём памяти]] и ускорить вычисления на современном оборудовании ([[Вики/GPU\|GPU]], NPU). Существует два основных…
answerКак вы измеряете эффективность speculative decoding?
…Ключевые метрики: **[[Вики/Memory Overhead Ratio\|MOR]] ([[Вики/Memory\|Memory]] [[Вики/overhead\|Overhead]] Ratio)** — отношение памяти [[Вики/KV-cache\|KV…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать selective scan (Mamba)
…Оптимизация (опциональный, 1–2 часа) Действия 1. Использовать профилировщик Nsight Compute для выявления узких мест. 2. Оптимизировать доступ к памяти…
answerКак вы разворачиваете LLM в production (self-hosted)?
…уменьшает использование GPU‑памяти. - [[Вики/Paged Attention\|PagedAttention]] (собственный) — эффективное управление KV‑cache. **Continuous batching** — ключевая оптимизация vLLM, которая позволяет…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…Использовать `te.Sequential` вместо стандартного forward — оптимизация памяти. 4. [[Вики/profiling\|Профилирование]] — запустить `nsys` для FP8 и найти узкие места…
answerКак дебажить memory fragmentation в LLM сервере?
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера\|217]] | Оптимизация памяти через Paged Attention и vLLM | | [[220. Как…
answerКак работает prefix caching и prompt caching у провайдеров?
…Это превращает [[Вики/Quadratic bottleneck\|O(n²) сложность]] в O(n) на шаг декодирования, но требует памяти ~ O(n) на…
answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Решение TGI Используется [[Вики/Block-based allocation\|блочное выделение памяти]] (block-based allocation) — KV cache разбивается на блоки фиксированного размера…
answerКак работает XLA (Accelerated Linear Algebra) для LLM на TPU?
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)\|321]] | Оптимизация памяти LLM на TPU (flash attention…
answerКак работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?
…Скорость доступа к разным уровням памяти различается на порядки: | Уровень памяти | Приблизительная задержка | Пропускная способность (H100) | |----------------|--------------------------|-------------------------------| | Register | <1 нс | ~30…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить cross-encoder reranking
…Уменьшить batch_size для экономии памяти. 4. Сравнить время инференса для разных моделей. Ожидаемый результат этапа Рекомендация по лучшей модели…
answerКак работает FlashAttention математически (tiling, recomputation, не материализуя S)?
…сложность по памяти снижается с `O(n²)` до `O(n)`, а скорость вычислений увеличивается в 2–4 раза за счёт…
answerКак масштабировать vLLM на несколько GPU/нод?
…архитектура, PagedAttention | | 815 | Оптимизация памяти KV cache в vLLM (prefix caching) | | 825 | Балансировка нагрузки для LLM inference | | 830 | InfiniBand vs…