Поиск
- wikimulti-GPU inference
# multi-GPU inference ## Определение Запуск модели на нескольких GPU для уменьшения задержки или увеличения пропускной способности; при tensor parallelism узким…
- wikiSpot Instances
# Spot Instances ## Определение Основной тип вычислительных ресурсов для batch inference, которые могут быть прерваны облаком. Используются для cost optimization, комбинируются…
- wikiGPT-2
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO]] - [[838. Как speculative decoding ускоряет inference (детально)|838. Как…
- wikiTGI
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)]] - [[825. Что такое autoscaling inference и как его настроить|825…
- wikiHugging Face
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
- wikiself-hosted
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
- wikibaseline
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
- wikiDistilGPT2
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiDistilBERT
…Сравнить spot vs on-demand для batch inference|73. Сравнить spot vs on-demand для batch inference]] - [[77. Реализовать cost…
- wikiduplicate detection
…Как работает membership inference атака на LLM|357. Как работает membership inference атака на LLM]] - [[406. Что такое idempotency в…
- answerЧто такое Cost Engineering для LLM-систем?
…optimization\|Cost Engineering]] легко получить ситуацию, когда [[Вики/ROI\|ROI]] внедрения AI-агента отрицательный – система решает задачу, но [[Вики/Inference…
- wikiPyTorch
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiLLM distillation
…Как speculative decoding ускоряет inference (детально)|838. Как speculative decoding ускоряет inference (детально)]] - [[800+ вопросов|800+ вопросов]] - [[57. Настроить recurrent…
- wikiTemperature
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
- wikiPerplexity
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
- answerКак работает graph optimization в LLM компиляторах (constant folding, dead code elimination)?
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)? ## Краткий тезис [[Вики/graph optimization\|Graph optimization]] в…
- wikiasyncio
…Сравнить spot vs on-demand для batch inference|73. Сравнить spot vs on-demand для batch inference]] - [[82. Реализовать human…
- answerЧто такое ONNX Runtime и когда он выгоден для LLM?
…Однако для чистого [[Вики/GPU\|GPU]] с высокой пропускной способностью ([[Вики/batch size\|batch inference]]) [[Вики/ONNX Runtime\|ORT]] уступает…
- answerTensorRT-LLM vs vLLM — сравнение для production deployment?
…производительность vs гибкость | Параметр | TensorRT-LLM | vLLM | |----------|--------------|------| | [[Вики/graph optimization\|Оптимизация графа]] | CUDA graphs + operator fusion (статический граф) | Динамический граф…
- wikiTensorRT-LLM
…Как работает continuous batching в TGI (Hugging Face Text Generation Inference)|218. Как работает continuous batching в TGI (Hugging Face…
- answerКак вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофического забывания?
…DPO вместо RLHF **[[Вики/Direct Preference Optimization\|DPO]] ([[Вики/Direct Preference Optimization\|Direct Preference Optimization]])** — метод, который напрямую оптимизирует политику…
- answerЧто такое RLAIF (RL from AI Feedback) и как он масштабируется?
…Это позволяет масштабировать процесс сбора данных до бесконечности, снижая [[Вики/Inference cost\|стоимость]] и время, но несёт риск усиления существующих…
- answerЧто такое **agent distillation** (обучение маленького агента на траекториях большого)?
…Метод 2: **Distillation с Preference Optimization (DPO)** Чтобы преодолеть [[Вики/error accumulation\|компаундные ошибки]], используют [[Вики/Direct Preference Optimization\|Direct…
- answerЧто такое calibration в контексте reward model для RLHF?
…Затем model|основная модель (policy) оптимизируется с помощью PPO (Policy Optimization|Proximal Policy Optimization) так, чтобы максимизировать предсказанное вознаграждение, но…
- answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…4. [[Вики/Evaluation\|Оценка]] [[Вики/robustness\|robustness]]: - [[Вики/inference\|Тестирование]] на новых, невиданных атаках ([[Вики/out of domain\|out-of…
- wikitransformers
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- answerКак работает synthetic data для RLHF (предпочтения)?
…Оптимизация [[Вики/policies\|политики]] ([[Вики/Proximal Policy Optimization\|PPO]], [[Вики/Direct Preference Optimization\|DPO]] и др.) с использованием [[Вики/reward…
- answerКак вы деплоите LLM на spot instances в облаке?
…Почему [[Вики/Spot Instances\|spot]] выгоден для [[Вики/LLM\|LLM]]: [[Вики/inference\|inference]] — [[Вики/Stateless\|stateless]] (один [[Вики/Prompt engineering…
- answerЧто такое operator fusion в компиляторах и какие паттерны fusion существуют?
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)\|321]] | Какие оптимизации выполняют компиляторы (dead code elimination…
- answerКак вы деплоите LLM с TensorRT-LLM в production?
…Деплой через Triton Inference Server [[Вики/Triton Inference Server\|Triton Inference Server]] — это production-ready сервер инференса от NVIDIA. Он…
- answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?
…оптимизирует TP и PP, поддерживает in-flight batching. - [[Вики/DeepSpeed Inference\|DeepSpeed Inference]]: автоматически выбирает TP/PP на основе профилирования…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить NVLink topology для 8× GPU
…Вы научитесь интерпретировать [[Вики/inference\|вывод]] утилиты `[[Вики/nvidia-smi topo -m\|nvidia-smi topo -m]]`, выявлять [[Вики/bottlenecks\|узкие…
- answerКак вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)?
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)? ## Краткий тезис Масштабирование синтетической генерации до миллионов примеров требует комбинации…
- indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…INFERENCE OPTIMIZATION (DEEP) — 15 задач *Углубление оптимизации [[Вики/GPT-4o\|LLM]] инференса.* | # | Задача | Что нужно сделать | Признак успеха | |---|--------|-------------------|-----------------| | 206 | Развернуть…
- answerКак вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
…через «оптимизационные профили» (optimization profiles) можно задать несколько диапазонов размеров. - Экосистема: [[Вики/Интеграция\|интеграция]] с [[Вики/Triton Inference Server\|Triton…
- wikiИндекс терминов
…Optimization]] - [[Вики/OFED|OFED]] - [[Вики/off-peak scheduling|off-peak scheduling]] - [[Вики/off-policy|off-policy]] - [[Вики/offline batch inference…
- answerКак вы деплоите policy (RLHF модель) в production с online feedback loop?
…Популярные решения: - [[Вики/Paged Attention\|vLLM]] — высокопроизводительный инференс для LLM с PagedAttention. - [[Вики/Triton Inference Server\|Triton Inference Server]] — поддержка…
- answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…Как работает membership inference атака на LLM\|602]] | Как оценить безопасность LLM-агента | | [[610. Что такое malicious embeddings (атака через…
- answerКак вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)?
…Multi-objective optimization и Pareto frontier **[[Вики/multi-objective optimization\|Multi-objective optimization]]** — [[Вики/Task\|задача]] оптимизации нескольких целевых функций…
- answerЧто такое MLIR и как он используется в IREE/TensorRT-LLM?
…Оптимизация ([[Вики/kernel fusion\|слияние операций]], удаление лишних reshape): ```bash iree-opt model_linalg.mlir --iree-optimization-pass-pipeline > model…
- answerКак вы fine-tune embedding модель под свой домен (а не используете готовую)?
…1 [[Вики/epoch\|эпоха]], [[Вики/Batch inference\|batch]] 16, lr=2e-5, [[Вики/contrastive loss\|InfoNCE]]. Результат: - [[Вики/Recall@5…
- indexИндекс разборов
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF\|36. Что такое DPO (Direct Preference Optimization) и чем…
- answerЧто такое DSPy и какую проблему он решает, которую не решают LangChain или LlamaIndex?
…нет способа доказать, что данный [[Вики/промпт агента\|промпт]] оптимален. - [[Вики/Inference cost\|Затраты]] времени: на каждый новый [[Вики/dataset…
- answerКак работают verifier models для agentic RAG и зачем они нужны?
…Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Self-RAG и его отличия от agentic RAG | | [[573…
- indexОглавление
…Inference Optimization *(задачи не загружены)* ### Категория 19: Pet-Проекты - [[Практика/Подробное описание/221. RAG на 100 PDF\|221. RAG на…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить CUDA graphs для коротких запросов
…launch overhead | | 78 | Static memory allocation in PyTorch | | 112 | Inference optimization with `torch.compile` | | 208 | Sequence padding strategies for LLM…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать cost attribution per feature
…GPT-4o\|LLM]] [[Вики/generation\|генерация]]) в общую [[Вики/Inference cost\|стоимость инференса]]. Разработать систему сбора метрик и расчёта себестоимости…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать prefix caching для system prompt
…Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 45 | LLM inference optimization: KV-cache | | 112 | Time-to-first-token (TTFT) metrics…
- answerКак работает memory compression для агентов (long-term memory)?
…Основные цели: - Увеличить эффективную длину «помни» агента. - Снизить [[Вики/Inference cost\|стоимость вызовов]] [[Вики/LLM\|LLM]] (меньше токенов на вход…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить reserved vs spot vs on-demand для ML-инфраструктуры
…Цель задачи Научиться анализировать реальные [[Вики/Inference cost\|затраты]] на облачные [[Вики/compute\|вычислительные ресурсы]] (GPU/CPU) за трёхмесячный период…