Поиск

  • wikiCost optimization

    # Cost optimization ## Определение Практика анализа и оптимизации затрат на облачные ресурсы, включая выбор типов инстансов и регионов с учётом частоты…

  • wikicost management

    # cost management ## Определение Комплекс практик и стратегий, направленных на снижение переменных и фиксированных затрат на LLM-продукт. Включает выбор бэкендов…

  • wikiGPT-3.5

    …Как вы оцениваете cost-effectiveness LLM-пайплайна]] - [[697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как…

  • wikiPrompt compression

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • wikiOpenAI Batch API

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • wikimulti-GPU inference

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • wikiCost Engineering

    …Что такое Cost Engineering для LLM-систем|775. Что такое Cost Engineering для LLM-систем]] - [[Практика|Практика]] - [[800+ вопросов|800…

  • wikiSpot Instances

    …Используются для cost optimization, комбинируются с on-demand. ## Где встречается - [[251. Как вы деплоите LLM на spot instances в облаке…

  • wikiGPT-4 Turbo

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • wikiRay

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • answerЧто такое Cost Engineering для LLM-систем?

    …Что такое Cost Engineering для LLM-систем? ## Краткий тезис [[Вики/Cost optimization\|Cost Engineering]] для LLM-систем — это дисциплина проектирования…

  • wikiself-hosted

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • wikiSemantic Caching

    …Как вы оцениваете cost-effectiveness LLM-пайплайна]] - [[697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как…

  • wikiTinyLlama

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikiCelery

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • wikicaching

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • wikiMT-Bench

    …Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…

  • answerКак работает agent replay для улучшения качества (анализ failed траекторий)?

    …эффективны\|570]] | Метрики качества агента (success rate, cost) | | [[572. Что такое trajectory optimization для агентов и как ее реализовать\|572…

  • wikiDistilBERT

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • wikiLLM distillation

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • wikibaseline

    …GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…

  • wikilaunch overhead

    …Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…

  • wikiReinforcement Learning from Human Feedback

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • answerКак работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?

    …нужно понять, какие именно [[Вики/cost\|токены]] привели к успеху/неудаче. [[Вики/Proximal Policy Optimization\|PPO]] через [[Вики/Advantage\|advantage…

  • answerКак проектировать auto-scaling с учётом cost (spot vs on-demand)?

    Cost optimization через анализ истории spot termination Оптимизация затрат включает сбор статистики по: - Spot interruption rate (частота прерываний) в разных…

  • answerЧто такое trajectory optimization для агентов и как ее реализовать?

    …Что такое trajectory optimization для агентов и как ее реализовать? ## Краткий тезис [[Вики/trajectory optimization\|Trajectory optimization]] ([[Вики/trajectory optimization

  • wikiMistral

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • wikiduplicate detection

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • answerGRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?

    …В отличие от **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики/Policy\|Policy]] Optimization|Proximal [[Вики/Policy\|Policy]] Optimization]])**, [[Вики/GRPO\|GRPO…

  • wikiLlamaIndex

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • wikiвекторный поиск

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • wikiasyncio

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?

    …DPO (Direct Preference Optimization) [[Вики/Direct Preference Optimization\|DPO]] — метод, который обходит обучение отдельной reward model. Вместо этого он напрямую…

  • answerКак оптимизировать траектории агента (trajectory optimization)?

    …Термин **[[Вики/trajectory optimization\|оптимизация траектории]] ([[Вики/trajectory optimization\|trajectory optimization]])** — набор техник, позволяющих получить более короткую, эффективную и надёжную…

  • answerКак работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)?

    …Proximal Policy Optimization\|PPO]] — сложный и нестабильный алгоритм (чувствителен к гиперпараметрам, требует много памяти). - Высокие [[Вики/Compute costs\|вычислительные затраты…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать cost attribution per feature

    …проектом, содержащая: - `cost_log.jsonl` – сырые логи с метриками (пример 100+ записей) - `cost_attribution.csv` – агрегированная таблица - `optimization_report.md…

  • answerЧто такое **agent distillation** (обучение маленького агента на траекториях большого)?

    …Метод 2: **Distillation с Preference Optimization (DPO)** Чтобы преодолеть [[Вики/error accumulation\|компаундные ошибки]], используют [[Вики/Direct Preference Optimization\|Direct…

  • answerКак вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)?

    Cost-adjusted accuracy **[[Вики/Cost-adjusted accuracy\|Cost-adjusted accuracy]]** — метрика, которая объединяет качество и [[Вики/cost\|стоимость]] (время или…

  • wikiWeights & Biases

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • answerКак вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)?

    …Предотвращение требует комбинации методов: [[Вики/cost penalty\|cost penalty]] в reward-функции, **[[Вики/промпт агента\|prompt engineering]]**, [[Вики/tool selection…

  • wikiFew-shot examples

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • wikiTGI

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • answerЧто такое RLAIF (RL from AI Feedback) и как он масштабируется?

    …Это позволяет масштабировать процесс сбора данных до бесконечности, снижая [[Вики/Inference cost\|стоимость]] и время, но несёт риск усиления существующих…

  • wikiLlama

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost

  • answerКак вы управляете качеством разметки (label quality) для DPO датасетов?

    …DPO (Direct Preference Optimization) [[Вики/Direct Preference Optimization\|DPO]] — метод обучения языковых моделей, который напрямую оптимизирует политику модели на основе…

  • answerКак вы проектируете систему для continuous learning LLM-агента в production — чтобы агент улучшался от взаимодействий с пользователями без переобучения на шум и без катастрофического забывания?

    …DPO вместо RLHF **[[Вики/Direct Preference Optimization\|DPO]] ([[Вики/Direct Preference Optimization\|Direct Preference Optimization]])** — метод, который напрямую оптимизирует политику…

  • answerКак вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)?

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)? ## Краткий тезис Масштабирование синтетической генерации до миллионов примеров требует комбинации…

  • indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING

    cost per request, cost per user, cost per session | Дашборд с cost breakdown | | 133 | Реализовать cost-aware routing | Классификатор сложности…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить reserved vs spot vs on-demand для ML-инфраструктуры

    …Ожидаемый результат Основной артефакт — файл `report.md` следующего содержания: ```markdown # Cost Optimization Report for ML Infrastructure ## Executive Summary Рекомендуется сценарий…

  • wikiпромпт агента

    …Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)|697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost