Поиск

  • wikitrajectory optimization

    # trajectory optimization ## Определение Оптимизация последовательности действий агента для повышения эффективности, сокращения длины и стоимости выполнения задачи. ## Где встречается - [[895. Как…

  • wikigraph optimization

    # graph optimization ## Определение Набор техник (fusion, constant folding, layout optimization, memory pattern), применяемых к вычислительному графу модели для уменьшения времени…

  • wikiOffline preference optimization

    # Offline preference optimization ## Определение Группа методов выравнивания моделей, которые оптимизируют предпочтения на фиксированных датасетах без генерации новых данных в реальном…

  • wikiIdentity Preference Optimization

    # Identity Preference Optimization ## Определение Улучшение DPO, устраняющее гиперпараметр β. ## Где встречается - [[36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikiCost optimization

    # Cost optimization ## Определение Практика анализа и оптимизации затрат на облачные ресурсы, включая выбор типов инстансов и регионов с учётом частоты…

  • wikiSimple Preference Optimization

    # Simple Preference Optimization ## Определение Метод alignment, использующий среднюю длину ответа для регуляризации. ## Где встречается - [[36. Что такое DPO (Direct Preference…

  • wikiOdds Ratio Preference Optimization

    # Odds Ratio Preference Optimization ## Определение Метод выравнивания, объединяющий supervised fine-tuning и оптимизацию предпочтений в единую функцию потерь с использованием…

  • answerЧто такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO?

    …В отличие от **[[Вики/Direct Preference Optimization\|DPO]] ([[Вики/Direct Preference Optimization\|Direct Preference Optimization]])**, [[Вики/Kahneman-Tversky Optimization\|KTO…

  • wikiKahneman-Tversky Optimization

    # Kahneman-Tversky Optimization ## Определение Метод alignment, использующий только хорошие или плохие ответы без парных предпочтений, альтернатива DPO, основанный на теории…

  • wikiGRPO

    # GRPO ## Определение Group Relative Policy Optimization — метод оптимизации политики в RL для alignment LLM, не требующий отдельной модели вознаграждения, основанный…

  • wikimulti-objective optimization

    # multi-objective optimization ## Определение Задача оптимизации нескольких целевых функций одновременно, например, минимизация задержки и максимизация точности. ## Где встречается - [[499. Как…

  • wikiBayesian optimization

    # Bayesian optimization ## Определение Вероятностный метод оптимизации, использующий гауссовские процессы для эффективного поиска оптимальных гиперпараметров. ## Где встречается - [[800+ вопросов|800+ вопросов…

  • wikioperator optimization

    # operator optimization ## Определение Операторные оптимизации в TensorRT-LLM, направленные на ускорение инференса за счёт слияния и перестановки операций. ## Где встречается…

  • wikifirst-order optimization

    # first-order optimization ## Определение Метод оптимизации, использующий градиенты (производные первого порядка) для поиска минимума функции. В контексте LLM применяется для…

  • wikioff-policy

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikiAnt Colony Optimization

    # Ant Colony Optimization ## Определение Метод оптимизации, основанный на имитации поведения муравьёв, используемый для поиска кратчайших путей в графах. ## Где встречается…

  • wikiweight optimization

    # weight optimization ## Определение Подбор коэффициента w для баланса между векторным и BM25 поиском в гибридном поиске. Используется для настройки вклада…

  • wikiParticle Swarm Optimization

    # Particle Swarm Optimization ## Определение Метод роевого интеллекта, моделирующий социальное поведение частиц для поиска оптимального решения в пространстве параметров. ## Где встречается…

  • wikiBradley-Terry model

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikiLayout Optimization

    # Layout Optimization ## Определение Перестановка тензоров в модели для улучшения использования кэша процессора, дающая до 10% ускорения инференса. Применяется в ONNX…

  • wikiimplicit reward

    # implicit reward ## Определение Вознаграждение, неявно моделируемое в Direct Preference Optimization (DPO) через отношение вероятностей текущей и референсной политики, заменяющее явную…

  • wikiMulti-Task Optimization

    # Multi-Task Optimization ## Определение Одновременная оптимизация нескольких шагов цепочки в DSPy, направленная на улучшение общей метрики. Требует валидации, чтобы избежать…

  • wikiProximal Policy Optimization

    # Proximal Policy Optimization ## Определение Алгоритм обучения с подкреплением с клиппингом, используемый в RLHF для стабильного обучения. ## Где встречается - [[36. Что…

  • wikiградиентная оптимизация

    # градиентная оптимизация ## Определение Метод белого ящика для генерации adversarial примеров (например, текста) путём оптимизации через градиенты модели, чтобы эмбеддинг стал…

  • wikiDPO loss

    # DPO loss ## Определение Функция потерь Direct Preference Optimization: -log σ(β * (log(π(y_w)/π_ref(y_w)) - log…

  • answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?

    …3. **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики/Proximal Policy Optimization\|Proximal Policy Optimization]])** с [[Вики/Reward\|reward]] сигналом. Замораживаем [[Вики…

  • wikitrajectory distillation

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikibatch search

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiReward score

    …Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…

  • wikistep merging

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…

  • wikiDeepSeek-R1

    …GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…

  • wikiDPOTrainer

    …Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…

  • wikibehavior cloning

    …Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…

  • wikipartition function

    …Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…

  • wikiDPO gradient

    …Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…

  • wikiReference point

    …Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…

  • wikiclosed-form expression

    …Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…

  • wikiLoss aversion

    …Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…

  • wikicollapse

    …Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…

  • answerЧто такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?

    …Что такое PPO (Proximal Policy Optimization) и почему он используется в RLHF? ## Краткий тезис **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики…

  • wikiprospect theory

    …Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…

  • wikiCommon subexpression elimination

    …Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…

  • wikirule-based reward

    …GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…

  • wikiShape specialization

    …Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…

  • answerКак работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?

    …Он проще **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики/Policy\|Policy]] Optimization|Proximal [[Вики/Policy\|Policy]] Optimization]])**, так как не требует…

  • wikiLLM compiler

    …Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…

  • wikidead code elimination

    …Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…

  • wikizero-order search

    # zero-order search ## Определение Перебор дискретных вариантов (промптов, ветвей) без использования градиентов, альтернатива first-order оптимизации. ## Где встречается - [[153. Что…

  • wikiAnthropic HH-RLHF

    …Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…

  • wikiconstant folding

    …Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…