Поиск
- wikitrajectory optimization
# trajectory optimization ## Определение Оптимизация последовательности действий агента для повышения эффективности, сокращения длины и стоимости выполнения задачи. ## Где встречается - [[895. Как…
- wikitrajectory distillation
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiтраектория агента
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] - [[146. Реализовать golden…
- wikibatch search
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikistep merging
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
- wikibehavior cloning
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
- answerЧто такое trajectory optimization для агентов и как ее реализовать?
…Что такое trajectory optimization для агентов и как ее реализовать? ## Краткий тезис [[Вики/trajectory optimization\|Trajectory optimization]] ([[Вики/trajectory optimization…
- wikiREINFORCE
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiReinforcement Learning
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
- wikiablation study
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
- answerКак оптимизировать траектории агента (trajectory optimization)?
…Термин **[[Вики/trajectory optimization\|оптимизация траектории]] ([[Вики/trajectory optimization\|trajectory optimization]])** — набор техник, позволяющих получить более короткую, эффективную и надёжную…
- wikiProximal Policy Optimization
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] - [[65. Реализовать process…
- wikiaction
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[898. Как работает Toolformer (обучение агента использованию…
- answerКак работает agent replay для улучшения качества (анализ failed траекторий)?
…Это генерирует положительный пример ([[Вики/preferred trajectory\|preferred trajectory]]) для [[Вики/Direct Preference Optimization\|DPO]]. [[Вики/Process\|Process]] 1. Показать…
- wikireward model
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] - [[63. Реализовать verifier…
- wikiNeMo Guardrails
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[Практика|Практика]] - [[800+ вопросов|800+ вопросов]] - [[102…
- wikigold standard
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[Практика|Практика]] - [[800+ вопросов|800+ вопросов]] - [[20…
- answerКак вы делаете online RL для агентов (self-improvement loops)?
…Алгоритм **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики/Proximal Policy Optimization\|Proximal Policy Optimization]])** — наиболее популярный, так как он стабилен и…
- answerЧто такое **agent distillation** (обучение маленького агента на траекториях большого)?
…Метод 2: **Distillation с Preference Optimization (DPO)** Чтобы преодолеть [[Вики/error accumulation\|компаундные ошибки]], используют [[Вики/Direct Preference Optimization\|Direct…
- answerКак вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)?
…Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Как вы проектируете систему инструментов для AI-агента? | | [[574…
- answerКак работают verifier models для agentic RAG и зачем они нужны?
…Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Self-RAG и его отличия от agentic RAG | | [[573…
- answerЧто такое agent evaluation метрика: successful task completion rate vs step efficiency?
…Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Принцип работы tool use в агентах | | [[577. Как вы…
- wikiИндекс терминов
…Trajectory Exact Match|Trajectory Exact Match]] - [[Вики/trajectory graph|trajectory graph]] - [[Вики/trajectory optimization|trajectory optimization]] - [[Вики/Trajectory reward|Trajectory…
- answerКак вы деплоите policy (RLHF модель) в production с online feedback loop?
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)\|335]] | Что такое RLHF и как он работает? | | [[336. Что…
- answerКак работает memory compression для агентов (long-term memory)?
…Как оптимизировать траектории агента (trajectory optimization)\|895]] - Индекс: [[00. Индекс разборов]]
- answerКак работает Toolformer-like обучение для агентов (self-supervised tool use)?
…Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Что такое API-Bank и как он используется для…
- indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…240 | | 894 | Memory compression | H 105, Pet 228 | | 895 | Trajectory optimization | D 122, Q 146 | | 896 | Self-healing agents | H…
- answerЧто такое tree search agents (MCTS for LLM) и когда они эффективны?
…Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Reflexion агенты | | [[569. Что такое reflection loops для агентов…
- answerЧто такое planner/executor architecture для агентов и когда она нужна?
…Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Как оценивать качество работы AI-агента? | --- ## 10. Навигация (Obsidian…
- answerКак сделать агента самовосстанавливающимся (self-healing)?
…Как оптимизировать траектории агента (trajectory optimization)\|895]] - Следующий: [[897. Как работают agent swarms (рой агентов)\|897]] - Индекс: [[00. Индекс разборов]]
- answerЧто такое skill libraries для агентов и как их создавать?
…Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Какие компоненты входят в архитектуру агента? | | [[573. Как вы…
- indexИндекс разборов
…Что такое trajectory optimization для агентов и как ее реализовать\|572. Что такое trajectory optimization для агентов и как ее…
- indexОглавление
…Что такое trajectory optimization для агентов и как ее реализовать\|572. Что такое trajectory optimization для агентов и как ее…
- question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Что такое trajectory optimization для агентов и как ее реализовать?** > _Ответ:_ Сбор траекторий агента (последовательность действий и наблюдений) из production…