Поиск

wikigraph optimization
# graph optimization ## Определение Набор техник (fusion, constant folding, layout optimization, memory pattern), применяемых к вычислительному графу модели для уменьшения времени…
wikimemory planning
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…
wikiGPT-2
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
wikiduplicate detection
…Настроить Memory (in-memory + vector)|105. Настроить Memory (in-memory + vector)]] - [[117. Настроить эскалацию человеку|117. Настроить эскалацию человеку]] - [[152…
answerКак работает graph optimization в LLM компиляторах (constant folding, dead code elimination)?
…Что такое TVM (Apache TVM) и зачем он нужен для AI инференса\|324]] | Какие техники memory optimization применяются в LLM…
answerGRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?
…В отличие от **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики/Policy\|Policy]] Optimization|Proximal [[Вики/Policy\|Policy]] Optimization]])**, [[Вики/GRPO\|GRPO…
wikiвекторный поиск
…Как устроена Memory в Harness (in-memory, fs, vector stores, relay)|750. Как устроена Memory в Harness (in-memory, fs…
answerЧто такое trajectory optimization для агентов и как ее реализовать?
…Что такое trajectory optimization для агентов и как ее реализовать? ## Краткий тезис [[Вики/trajectory optimization\|Trajectory optimization]] ([[Вики/trajectory optimization…
answerЧто такое operator fusion в компиляторах и какие паттерны fusion существуют?
…Это снижает [[Вики/overhead\|накладные расходы]] на запуск ядер, уменьшает количество чтений/записей в глобальную [[Вики/Memory\|память]] и повышает…
answerЧто такое KL divergence и где она применяется в LLM (RLHF, distillation)?
…KL divergence в DPO (Direct Preference Optimization) [[Вики/Direct Preference Optimization\|DPO]] — альтернатива [[Вики/Reinforcement Learning from Human Feedback\|RLHF…
answerЧто такое Cost Engineering для LLM-систем?
…Что такое Cost Engineering для LLM-систем? ## Краткий тезис [[Вики/Cost optimization\|Cost Engineering]] для LLM-систем — это дисциплина проектирования…
wikiLLM distillation
…Настроить recurrent memory для long context|57. Настроить recurrent memory для long context]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
answerКак оптимизировать траектории агента (trajectory optimization)?
…Термин **[[Вики/trajectory optimization\|оптимизация траектории]] ([[Вики/trajectory optimization\|trajectory optimization]])** — набор техник, позволяющих получить более короткую, эффективную и надёжную…
wikiWeights & Biases
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
answerКак работает gradient checkpointing в DeepSpeed?
…Это даёт выигрыш [[Вики/In-Memory\|в памяти]] с O(L) до O(√L) или O([[Вики/мониторинг\|log]] L…
wikiTGI
…Как дебажить memory fragmentation в LLM сервере|846. Как дебажить memory fragmentation в LLM сервере]] - [[Практика|Практика]] - [[800+ вопросов|800…
wikiTensorRT-LLM
…Как вы управляете memory fragmentation при длительном раннинге LLM сервера|452. Как вы управляете memory fragmentation при длительном раннинге LLM…
answerКак работает memory compression для агентов (long-term memory)?
…Как работает memory compression для агентов (long-term memory)? ## Краткий тезис Memory compression — это механизм, позволяющий LLM-агенту хранить и…
answerЧто такое **agent distillation** (обучение маленького агента на траекториях большого)?
…Метод 2: **Distillation с Preference Optimization (DPO)** Чтобы преодолеть [[Вики/error accumulation\|компаундные ошибки]], используют [[Вики/Direct Preference Optimization\|Direct…
answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…Layout Optimization\|Layout Optimization]] | Перестановка тензоров для лучшего использования кэша | До 10% ускорения на CPU | | [[Вики/Memory Pattern\|Memory Pattern…
wikikernel fusion
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…
wikigold standard
…Что такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (16GB)|232. Что такое Memory-optimized ANN и…
wikiпромпт агента
…Настроить recurrent memory для long context|57. Настроить recurrent memory для long context]] - [[64. Настроить self-consistency для CoT|64…
answerZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?
…Она позволяет обучать большие модели, которые не помещаются в [[Вики/Memory\|память]] одной [[Вики/GPU\|GPU]], за счёт распределения данных…
answerКак проектировать auto-scaling с учётом cost (spot vs on-demand)?
…механизм автоматического изменения количества вычислительных ресурсов (инстансов) в зависимости от нагрузки, метрик [[Вики/Memory\|CPU]], памяти, очереди запросов. - [[Вики/On…
wikiLlama
…Настроить recurrent memory для long context|57. Настроить recurrent memory для long context]] - [[81. Спроектировать uncertainty UI|81. Спроектировать uncertainty…
wikiИндекс терминов
…generalization trade-off]] - [[Вики/Memory|Memory]] - [[Вики/Memory & Persistence|Memory & Persistence]] - [[Вики/Memory Bandwidth|Memory Bandwidth]] - [[Вики/memory bandwidth bottleneck…
answerКак работает XLA (Accelerated Linear Algebra) для LLM на TPU?
…в eager-режиме каждая операция запускается отдельно, что приводит к задержкам. - Неоптимальное [[Вики/memory footprint\|использование памяти]]: [[Вики/XLA\|XLA…
answerКак сделать агента самовосстанавливающимся (self-healing)?
…Компоненты для мониторинга: - **[[Вики/Qdrant\|Memory store]]** ([[Вики/Kafka\|Redis]], [[Вики/Faiss\|Postgres]]): [[Вики/Check\|проверка]] коннективности, целостности данных (например…
answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…Позволяет избежать фрагментации памяти и эффективно использовать [[Вики/GPU memory\|GPU memory]] при переменных длинах. --- ## 3. Когда выбирать TensorRT-LLM…
answerЧто такое DeepSpeed ZeRO-Offload и когда он полезен?
…true }, "zero_optimization": { "stage": 2, "offload_optimizer": { "device": "cpu", "pin_memory": true }, "offload_param": { "device": "cpu", "pin_memory": true }, "allgather…
answerЧто такое TVM (Apache TVM) и зачем он нужен для AI инференса?
…автоматический [[Вики/retrieval\|поиск]] оптимальных параметров ядер (размеры блоков, порядок циклов, [[Вики/memory footprint\|использование памяти]]). - Графовые и тензорные оптимизации…
answerКак вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)?
…Что такое trajectory optimization для агентов и как ее реализовать\|572]] - Следующий: [[574. Что такое memory corruption в агентах и…
answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…Вики/GPU\|GPU]], [[Вики/Memory\|CPU]], NPU, [[Вики/TPU\|TPU]]). Зачем нужен компилятор - [[Вики/graph optimization\|Оптимизация графа]]: [[Вики/Fusing…
answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?
…Как работает paged attention в vLLM Чем это отличается от стандартного attention механизма\|202]] | Memory optimization при инференсе (KV-cache…
answerЧто такое 3D parallelism (data + tensor + pipeline)?
…DP — [[Вики/indexing\|утилизация]] большого количества [[Вики/GPU\|GPU]] при недостаточном батч-сайзе, TP — [[Вики/Memory\|память]] для гигантских слоёв…
answerПочему training 70B модели требует optimizer sharding (ZeRO-3)?
…0.01 } }, "zero_optimization": { "stage": 3, "offload_optimizer": { "device": "cpu", "pin_memory": True }, "offload_param": { "device": "cpu", "pin_memory": True…
answerКак вы fine-tune embedding модель под свой домен (а не используете готовую)?
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF\|36]] | Что такое contrastive learning в контексте эмбеддингов? | | [[37…
indexИндекс разборов
…Как работает memory compression для агентов (long-term memory)?]] - [[895. Как оптимизировать траектории агента (trajectory optimization)\|895. Как оптимизировать траектории…
indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…search (MCTS) | Pet 240 | | 894 | Memory compression | H 105, Pet 228 | | 895 | Trajectory optimization | D 122, Q 146 | | 896 | Self…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить CUDA graphs для коротких запросов
…CUDA kernel launch overhead | | 78 | Static memory allocation in PyTorch | | 112 | Inference optimization with `torch.compile` | | 208 | Sequence padding strategies…
answerКакие фреймворки для fine-tuning вы используете?
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF\|36]] | Как собирать датасет для fine-tuning | | [[37. Как…
answerКак вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)?
…Реализуется через [[Вики/Kafka\|Redis]] или [[Вики/In-memory cache\|in-memory dict]]. - [[Вики/Semantic Caching\|Семантическое кэширование]]: для похожих…
answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?
…Оптимизация ([[Вики/kernel fusion\|слияние операций]], удаление лишних reshape): ```bash iree-opt model_linalg.mlir --iree-optimization-pass-pipeline > model…
indexОглавление
…Как работает memory compression для агентов (long-term memor]] - [[Вопросы/Ответы/895. Как оптимизировать траектории агента (trajectory optimization)\|895. Как…
answerКак вы делаете synthetic data для сложного рассуждения (math, code)?
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)\|697]] | Как обучать агента для Agentic RAG? | | [[699. Как вы…
answerКак работают verifier models для agentic RAG и зачем они нужны?
…Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Self-RAG и его отличия от agentic RAG | | [[573…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…INFERENCE OPTIMIZATION (DEEP) — 30 вопросов **431. Почему LLM inference memory-bound, а не compute-bound?** > _Ответ:_ В autoregressive decoding каждый…
answerКак вы уменьшаете latency RAG-системы (время ответа)?
…Термин «[[Вики/caching\|Кэш]]» ([[Вики/caching\|Cache]] Временное хранилище с быстрым доступом. [[Вики/Kafka\|Redis]] — [[Вики/In-Memory\|in-memory…
answerQLoRA vs LoRA — в чем разница и когда QLoRA лучше?
…Как вы подготовите датасет для fine-tuning, если у вас только неструктурированные диалоги с клиентами\|32]] | Memory optimization — Gradient Checkpointing…