Поиск

wikiCost optimization
# Cost optimization ## Определение Практика анализа и оптимизации затрат на облачные ресурсы, включая выбор типов инстансов и регионов с учётом частоты…
wikicost management
# cost management ## Определение Комплекс практик и стратегий, направленных на снижение переменных и фиксированных затрат на LLM-продукт. Включает выбор бэкендов…
wikiGPT-3.5
…Как вы оцениваете cost-effectiveness LLM-пайплайна]] - [[697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как…
wikiPrompt compression
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
wikiOpenAI Batch API
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
wikimulti-GPU inference
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
wikiCost Engineering
…Что такое Cost Engineering для LLM-систем|775. Что такое Cost Engineering для LLM-систем]] - [[Практика|Практика]] - [[800+ вопросов|800…
wikiSpot Instances
…Используются для cost optimization, комбинируются с on-demand. ## Где встречается - [[251. Как вы деплоите LLM на spot instances в облаке…
wikiGPT-4 Turbo
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
wikiRay
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
answerЧто такое Cost Engineering для LLM-систем?
…Что такое Cost Engineering для LLM-систем? ## Краткий тезис [[Вики/Cost optimization\|Cost Engineering]] для LLM-систем — это дисциплина проектирования…
wikiself-hosted
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
wikiSemantic Caching
…Как вы оцениваете cost-effectiveness LLM-пайплайна]] - [[697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как…
wikiTinyLlama
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikiCelery
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
wikicaching
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
wikiMT-Bench
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
answerКак работает agent replay для улучшения качества (анализ failed траекторий)?
…эффективны\|570]] | Метрики качества агента (success rate, cost) | | [[572. Что такое trajectory optimization для агентов и как ее реализовать\|572…
wikiDistilBERT
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
wikiLLM distillation
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
wikibaseline
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
wikilaunch overhead
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…
wikiReinforcement Learning from Human Feedback
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
answerКак работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?
…нужно понять, какие именно [[Вики/cost\|токены]] привели к успеху/неудаче. [[Вики/Proximal Policy Optimization\|PPO]] через [[Вики/Advantage\|advantage…
answerКак проектировать auto-scaling с учётом cost (spot vs on-demand)?
…Cost optimization через анализ истории spot termination Оптимизация затрат включает сбор статистики по: - Spot interruption rate (частота прерываний) в разных…
answerЧто такое trajectory optimization для агентов и как ее реализовать?
…Что такое trajectory optimization для агентов и как ее реализовать? ## Краткий тезис [[Вики/trajectory optimization\|Trajectory optimization]] ([[Вики/trajectory optimization…
wikiMistral
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
wikiduplicate detection
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
answerGRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?
…В отличие от **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики/Policy\|Policy]] Optimization|Proximal [[Вики/Policy\|Policy]] Optimization]])**, [[Вики/GRPO\|GRPO…
wikiLlamaIndex
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
wikiвекторный поиск
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
wikiasyncio
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?
…DPO (Direct Preference Optimization) [[Вики/Direct Preference Optimization\|DPO]] — метод, который обходит обучение отдельной reward model. Вместо этого он напрямую…
answerКак оптимизировать траектории агента (trajectory optimization)?
…Термин **[[Вики/trajectory optimization\|оптимизация траектории]] ([[Вики/trajectory optimization\|trajectory optimization]])** — набор техник, позволяющих получить более короткую, эффективную и надёжную…
answerКак работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?
…Proximal Policy Optimization\|PPO]] — сложный и нестабильный алгоритм (чувствителен к гиперпараметрам, требует много памяти). - Высокие [[Вики/Compute costs\|вычислительные затраты…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать cost attribution per feature
…проектом, содержащая: - `cost_log.jsonl` – сырые логи с метриками (пример 100+ записей) - `cost_attribution.csv` – агрегированная таблица - `optimization_report.md…
answerЧто такое **agent distillation** (обучение маленького агента на траекториях большого)?
…Метод 2: **Distillation с Preference Optimization (DPO)** Чтобы преодолеть [[Вики/error accumulation\|компаундные ошибки]], используют [[Вики/Direct Preference Optimization\|Direct…
answerКак вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)?
…Cost-adjusted accuracy **[[Вики/Cost-adjusted accuracy\|Cost-adjusted accuracy]]** — метрика, которая объединяет качество и [[Вики/cost\|стоимость]] (время или…
wikiWeights & Biases
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
answerКак вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)?
…Предотвращение требует комбинации методов: [[Вики/cost penalty\|cost penalty]] в reward-функции, **[[Вики/промпт агента\|prompt engineering]]**, [[Вики/tool selection…
wikiFew-shot examples
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
wikiTGI
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
answerЧто такое RLAIF (RL from AI Feedback) и как он масштабируется?
…Это позволяет масштабировать процесс сбора данных до бесконечности, снижая [[Вики/Inference cost\|стоимость]] и время, но несёт риск усиления существующих…
wikiLlama
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…
answerКак вы управляете качеством разметки (label quality) для DPO датасетов?
…DPO (Direct Preference Optimization) [[Вики/Direct Preference Optimization\|DPO]] — метод обучения языковых моделей, который напрямую оптимизирует политику модели на основе…
answerКак вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофического забывания?
…DPO вместо RLHF **[[Вики/Direct Preference Optimization\|DPO]] ([[Вики/Direct Preference Optimization\|Direct Preference Optimization]])** — метод, который напрямую оптимизирует политику…
answerКак вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)?
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)? ## Краткий тезис Масштабирование синтетической генерации до миллионов примеров требует комбинации…
indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…cost per request, cost per user, cost per session | Дашборд с cost breakdown | | 133 | Реализовать cost-aware routing | Классификатор сложности…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить reserved vs spot vs on-demand для ML-инфраструктуры
…Ожидаемый результат Основной артефакт — файл `report.md` следующего содержания: ```markdown # Cost Optimization Report for ML Infrastructure ## Executive Summary Рекомендуется сценарий…
wikiпромпт агента
…Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost…