Поиск

  • wikitrajectory optimization

    # trajectory optimization ## Определение Оптимизация последовательности действий агента для повышения эффективности, сокращения длины и стоимости выполнения задачи. ## Где встречается - [[895. Как…

  • wikitrajectory distillation

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiтраектория агента

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] - [[146. Реализовать golden…

  • wikibatch search

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikistep merging

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…

  • wikibehavior cloning

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…

  • answerЧто такое trajectory optimization для агентов и как ее реализовать?

    …Что такое trajectory optimization для агентов и как ее реализовать? ## Краткий тезис [[Вики/trajectory optimization\|Trajectory optimization]] ([[Вики/trajectory optimization

  • wikiREINFORCE

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiReinforcement Learning

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…

  • wikiablation study

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…

  • answerКак оптимизировать траектории агента (trajectory optimization)?

    …Термин **[[Вики/trajectory optimization\|оптимизация траектории]] ([[Вики/trajectory optimization\|trajectory optimization]])** — набор техник, позволяющих получить более короткую, эффективную и надёжную…

  • wikiProximal Policy Optimization

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] - [[65. Реализовать process…

  • wikiaction

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[898. Как работает Toolformer (обучение агента использованию…

  • answerКак работает agent replay для улучшения качества (анализ failed траекторий)?

    …Это генерирует положительный пример ([[Вики/preferred trajectory\|preferred trajectory]]) для [[Вики/Direct Preference Optimization\|DPO]]. [[Вики/Process\|Process]] 1. Показать…

  • wikireward model

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] - [[63. Реализовать verifier…

  • wikiNeMo Guardrails

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[Практика|Практика]] - [[800+ вопросов|800+ вопросов]] - [[102…

  • wikigold standard

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[Практика|Практика]] - [[800+ вопросов|800+ вопросов]] - [[20…

  • answerКак вы делаете online RL для агентов (self-improvement loops)?

    …Алгоритм **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики/Proximal Policy Optimization\|Proximal Policy Optimization]])** — наиболее популярный, так как он стабилен и…

  • answerЧто такое **agent distillation** (обучение маленького агента на траекториях большого)?

    …Метод 2: **Distillation с Preference Optimization (DPO)** Чтобы преодолеть [[Вики/error accumulation\|компаундные ошибки]], используют [[Вики/Direct Preference Optimization\|Direct…

  • answerКак вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)?

    …Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Как вы проектируете систему инструментов для AI-агента? | | [[574…

  • answerКак работают verifier models для agentic RAG и зачем они нужны?

    …Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Self-RAG и его отличия от agentic RAG | | [[573…

  • answerЧто такое agent evaluation метрика: successful task completion rate vs step efficiency?

    …Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Принцип работы tool use в агентах | | [[577. Как вы…

  • wikiИндекс терминов

    Trajectory Exact Match|Trajectory Exact Match]] - [[Вики/trajectory graph|trajectory graph]] - [[Вики/trajectory optimization|trajectory optimization]] - [[Вики/Trajectory reward|Trajectory

  • answerКак вы деплоите policy (RLHF модель) в production с online feedback loop?

    …Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)\|335]] | Что такое RLHF и как он работает? | | [[336. Что…

  • answerКак работает memory compression для агентов (long-term memory)?

    …Как оптимизировать траектории агента (trajectory optimization)\|895]] - Индекс: [[00. Индекс разборов]]

  • answerКак работает Toolformer-like обучение для агентов (self-supervised tool use)?

    …Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Что такое API-Bank и как он используется для…

  • indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING

    …240 | | 894 | Memory compression | H 105, Pet 228 | | 895 | Trajectory optimization | D 122, Q 146 | | 896 | Self-healing agents | H…

  • answerЧто такое tree search agents (MCTS for LLM) и когда они эффективны?

    …Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Reflexion агенты | | [[569. Что такое reflection loops для агентов…

  • answerЧто такое planner/executor architecture для агентов и когда она нужна?

    …Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Как оценивать качество работы AI-агента? | --- ## 10. Навигация (Obsidian…

  • answerКак сделать агента самовосстанавливающимся (self-healing)?

    …Как оптимизировать траектории агента (trajectory optimization)\|895]] - Следующий: [[897. Как работают agent swarms (рой агентов)\|897]] - Индекс: [[00. Индекс разборов]]

  • answerЧто такое skill libraries для агентов и как их создавать?

    …Что такое trajectory optimization для агентов и как ее реализовать\|572]] | Какие компоненты входят в архитектуру агента? | | [[573. Как вы…

  • indexИндекс разборов

    …Что такое trajectory optimization для агентов и как ее реализовать\|572. Что такое trajectory optimization для агентов и как ее…

  • indexОглавление

    …Что такое trajectory optimization для агентов и как ее реализовать\|572. Что такое trajectory optimization для агентов и как ее…

  • question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)

    …Что такое trajectory optimization для агентов и как ее реализовать?** > _Ответ:_ Сбор траекторий агента (последовательность действий и наблюдений) из production…