Поиск
- wikifirst-order optimization
…В контексте LLM применяется для оптимизации в пространстве токенов на этапе инференса, например, в ∇-Reasoner. ## Где встречается - [[153. Что такое…
- wikiauto-tuning
# auto-tuning ## Определение Автоматическая оптимизация параметров выполнения (например, kernel) под конкретное аппаратное обеспечение для повышения эффективности инференса. ## Где встречается - [[800…
- wikiadaptive compute
# adaptive compute ## Определение Оптимизация времени инференса за счёт динамического распределения вычислительных ресурсов в зависимости от сложности запроса. ## Где встречается - [[68…
- wikiFixed shapes
# Fixed shapes ## Определение Оптимизация инференса, при которой длина последовательности и размер батча фиксированы, что позволяет эффективно использовать TensorRT-LLM и…
- wikiFlashDecoding
# FlashDecoding ## Определение Оптимизация для инференса LLM, которая ускоряет чтение/запись KV cache и частично скрывает задержки памяти при генерации одного…
- wikiFlash Decoding
# Flash Decoding ## Определение Оптимизация decode-этапа инференса LLM через параллельную обработку запросов в batch, что снижает задержку генерации токенов. ## Где…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать FP8 инференс на H100
…операций | | Фреймворк | PyTorch 2.3+ | Основной deep learning фреймворк | | Оптимизация инференса | Transformer Engine (TE) | Автоматическое смешанное квантование, слои te.Linear…
- wiki∇-Reasoner
# ∇-Reasoner ## Определение Метод, переносящий градиентный спуск с этапа обучения на этап инференса: оптимизация скрытых представлений токенов для улучшения сложных рассуждений…
- wikiZeRO
…Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…
- answerКак вы выбираете между online и batch инференсом для LLM?
…PagedAttention]] — оптимизация памяти для [[Вики/KV-cache\|KV-cache]]. Пример конфигурации online сервиса: ```python # Псевдокод для online инференса с vLLM…
- answerКак работает L1/L2 cache hierarchy в A100/H100 и как ее использовать для LLM?
…Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism\|401]] | Как вы уменьшаете latency LLM-инференса…
- answerКакую LLM вы выберете для "быстрых" (<200ms) простых задач классификации?
…Почему не любая [[Вики/LLM\|LLM]] Большие авторегрессивные модели (7B+ параметров) даже с оптимизациями редко дают задержку ниже 200 мс…
- answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…Вики/runtime\|runtime]] для оптимизации инференса на [[Вики/GPU\|GPU]] NVIDIA. Особенности - Глубокая оптимизация для [[Вики/CUDA\|CUDA]]: использует [[Вики…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать speculative decoding с draft моделью
…3. [[Вики/Оптимизация batch-обработки\|Оптимизация batch-обработки]] Если позволяет память, запустить несколько промптов в батче. 4. **Проверить влияние промпта…
- answerКак сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)?
…Связь с другими вопросами | Вопрос | Тема | |--------|------| | 846 | Как уменьшить размер модели для RAG? | | 845 | Оптимизация инференса: tensor parallelism, batching | | 844…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать latent reasoning (COCONUT)
…Основная цель — построить и обучить модель, способную производить рассуждение в скрытом пространстве, и достичь снижения стоимости инференса на 50% без…
- answerЧто такое NCCL и почему он критичен для multi-GPU инференса?
…Что такое idempotency в контексте LLM API и зачем она нужна\|406]] | Оптимизация инференса LLM | | [[407. Как вы проектируете dead…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать GPU utilization падение
…Цель задачи Научиться выявлять причины низкой утилизации [[Вики/GPU\|GPU]] (ниже 50%) в процессе инференса или обучения модели с помощью…
- answerКак работает tensor parallelism для LLM инференса? В чем отличие от pipeline parallelism?
…Что такое circuit breaker и как он применяется к LLM API вызовам\|404]] | Оптимизация инференса LLM (kv cache, continuous batching…
- wikiWeights & Biases
…Настроить RWKV для инференса|52. Настроить RWKV для инференса]] - [[54. Сравнить Hyena vs FlashAttention на 128k|54. Сравнить Hyena vs…
- answerЧто такое CUDA graphs и как они ускоряют LLM инференс?
…Как вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM\|310]] | Оптимизация инференса LLM (обзор методов) | | [[312. Как работает…
- answerКак вы деплоите LLM с TensorRT-LLM в production?
…Что такое ONNX Runtime и когда он выгоден для LLM\|320]] | Оптимизация инференса LLM | | [[321. Как работает graph optimization в…
- answerЧто такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста?
…То есть оптимизация идёт в soft-представлениях, а финальный ответ получается либо жадным декодированием из оптимизированных эмбеддингов, либо с помощью…
- answerКак вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
…Как вы фильтруете документы по метаданным в векторной БД\|12]] | Какие методы оптимизации инференса LLM вы знаете? | | [[15. Какие embedding…
- answerЧто такое torch.compile и как он ускоряет training?
…фреймворк (JAX), сложнее отладка | | [[Вики/TensorRT-LLM\|TensorRT]] | Оптимизация для инференса NVIDIA GPU | Максимальная скорость для inference | Не подходит для…
- answerЧем AWQ отличается от GPTQ?
…Hessian‑оптимизация для равномерной квантизации [[Вики/GPTQ\|GPTQ]] (Generative Pre‑trained [[Вики/Transformer\|Transformer]] [[Вики/Quantization\|Quantization]]) — алгоритм, предложенный в…
- answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…Как работает XLA (Accelerated Linear Algebra) для LLM на TPU\|319]] | Оптимизация инференса LLM (CUDA graphs, continuous batching) | | [[320. Что…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить cross-encoder reranking
…Определить параметры инференса - `[[Вики/max_length\|max_length]] = 512` ([[Вики/duplicate detection\|обрезка]] длинных текстов) - `[[Вики/batch size\|batch_size…
- answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?
…Зачем нужен [[Вики/MLIR\|MLIR]] - Традиционные компиляторы ([[Вики/LLVM\|LLVM]], GCC) плохо справляются с оптимизациями, специфичными для ML (например, [[Вики…
- answerКак работает Torch Compile (torch.compile) и в чем его ограничения для LLM?
…Что такое MIG (Multi-Instance GPU) и когда он полезен для LLM\|315]] | Оптимизация инференса LLM (vLLM, TensorRT-LLM) | | [[317…
- answerКак работает grouped-query attention (GQA) и как trade-off speed/quality?
…Связь с другими механизмами внимания [[Вики/Grouped-Query Attention\|GQA]] — не единственная оптимизация. Есть также: - [[Вики/FlashAttention\|FlashAttention]] (алгоритмическая оптимизация…
- answerЧто такое FP8 инференс на H100 (Transformer Engine)?
…Механизм работы FP8 инференса Процесс инференса с [[Вики/Transformer Engine\|Transformer Engine]] включает следующие шаги: 1. Входные данные (активации и…
- answerКак вы измеряете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
…TTFT vs TPOT и GPU utilization Иногда оптимизация одной метрики ухудшает другую: | Оптимизация | Влияние на TTFT | Влияние на TPOT | Комментарий…
- answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?
…Что такое TVM (Apache TVM) и зачем он нужен для AI инференса? ## Краткий тезис [[Вики/Apache TVM\|Apache TVM]] — это…
- answerЧто такое DSPy в контексте агентов?
…4. [[Вики/iteration\|Итерация]] — оптимизация может повторяться, постепенно улучшая качество. Ключевой механизм — **[[Вики/BootstrapFewShot\|bootstrap few-shot]]**. [[Вики/DSPy\|DSPy…
- answerКак работает graph optimization в LLM компиляторах (constant folding, dead code elimination)?
…Что такое LLM компиляторы и зачем нужна оптимизация графа [[Вики/LLM\|LLM]] компилятор — это специализированная программа, которая преобразует высокоуровневое описание…
- answerКак вы выбираете между online и batch инференсом для LLM?
…Для online инференса часто применяют [[Вики/AWQ\|AWQ]] (Activation-aware Weight Quantization) или [[Вики/GPTQ\|GPTQ]], которые сохраняют качество при…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Профилировать memory fragmentation на GPU
…2. [[Вики/Проверить влияние многомодельного инференса\|Проверить влияние многомодельного инференса]] - Каждая модель создаёт свой allocator cache. - Используется ли `torch.cuda…
- answerКак вы читаете профиль Nsight Systems для поиска bottlenecks в vLLM?
…При профилировании vLLM (библиотеки для эффективного инференса LLM) мы ищем характерные паттерны: длинные промежутки между ядрами (CPU overhead|launch overhead…
- answerGGUF vs GPTQ vs AWQ: сравнение форматов квантизации для инференса?
…Выбор инструмента инференса\|444]] | vLLM vs llama.cpp vs ExLlama | | [[438. Оптимизация latency LLM\|438]] | Как квантизация влияет на задержку…
- answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…Оптимизация графа (Graph Optimization) [[Вики/ONNX Runtime\|ORT]] автоматически применяет ряд оптимизаций к ONNX-графу: | Оптимизация | Описание | Влияние на LLM…
- answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100\|705]] | Оптимизация инференса LLM (batch size, quantization) | | [[706. Что такое…
- answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Как работает HNSW (Hierarchical Navigable Small World) алгоритм внутренне\|221]] | Оптимизация инференса LLM (TensorRT-LLM) | | [[222. Что такое IVF (Inverted…
- answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
…Для достижения таких показателей необходима горизонтальная масштабируемость (добавление узлов), **кэширование**, геораспределение и оптимизация каждого этапа RAG-пайплайна. --- ## 2. Общая архитектура…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать evaluation для long context (Needle in a Haystack на 32k, 64k, 128k)
…Критерии приемки (Definition of Done) - [ ] Создан воспроизводимый генератор тестовых данных (JSON-файл). - [ ] Реализован пайплайн инференса модели с обработкой ошибок. - [ ] Вычислен…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить cost efficiency провайдеров LLM (GPT-4 vs Claude vs Llama-3 self-hosted)
…Тема | |--------|------| | 410 | Расчёт стоимости инференса LLM | | 412 | Сравнение API vs self-hosting для LLM | | 415 | Оптимизация стоимости RAG-систем | | 420…
- answerКак работает tensor parallelism для LLM training? Чем отличается от инференса?
…Почему LLM inference memory-bound, а не compute-bound\|431]] | Оптимизация инференса: какие методы снижают latency без TP | | [[440. Как…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить search-based inference (AlphaSearch)
…Замерить среднее время инференса на один пример для каждой стратегии. [[Вики/Ожидаемый результат этапа\|Ожидаемый результат этапа]] Таблица метрик: | Стратегия…
- answerRWKV (RNN with Transformer attention): как комбинирует RNN и attention?
…Это делает [[Вики/RWKV\|RWKV]] эффективным для инференса (как [[Вики/RNN\|RNN]]) и при этом способным моделировать долгосрочные зависимости (как…
- answerЧто такое FlashAttention-3 и какие improvements он принес по сравнению с FA2?
…Tensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса.\|203]] | FlashAttention-2: детали реализации | | [[205. Как вы…