Поиск

wikitrajectory optimization
# trajectory optimization ## Определение Оптимизация последовательности действий агента для повышения эффективности, сокращения длины и стоимости выполнения задачи. ## Где встречается - [[895. Как…
wikigraph optimization
# graph optimization ## Определение Набор техник (fusion, constant folding, layout optimization, memory pattern), применяемых к вычислительному графу модели для уменьшения времени…
wikiOffline preference optimization
# Offline preference optimization ## Определение Группа методов выравнивания моделей, которые оптимизируют предпочтения на фиксированных датасетах без генерации новых данных в реальном…
wikiIdentity Preference Optimization
# Identity Preference Optimization ## Определение Улучшение DPO, устраняющее гиперпараметр β. ## Где встречается - [[36. Что такое DPO (Direct Preference Optimization) и чем…
wikiCost optimization
# Cost optimization ## Определение Практика анализа и оптимизации затрат на облачные ресурсы, включая выбор типов инстансов и регионов с учётом частоты…
wikiSimple Preference Optimization
# Simple Preference Optimization ## Определение Метод alignment, использующий среднюю длину ответа для регуляризации. ## Где встречается - [[36. Что такое DPO (Direct Preference…
wikiOdds Ratio Preference Optimization
# Odds Ratio Preference Optimization ## Определение Метод выравнивания, объединяющий supervised fine-tuning и оптимизацию предпочтений в единую функцию потерь с использованием…
answerЧто такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO?
…В отличие от **[[Вики/Direct Preference Optimization\|DPO]] ([[Вики/Direct Preference Optimization\|Direct Preference Optimization]])**, [[Вики/Kahneman-Tversky Optimization\|KTO…
wikiKahneman-Tversky Optimization
# Kahneman-Tversky Optimization ## Определение Метод alignment, использующий только хорошие или плохие ответы без парных предпочтений, альтернатива DPO, основанный на теории…
wikiGRPO
# GRPO ## Определение Group Relative Policy Optimization — метод оптимизации политики в RL для alignment LLM, не требующий отдельной модели вознаграждения, основанный…
wikimulti-objective optimization
# multi-objective optimization ## Определение Задача оптимизации нескольких целевых функций одновременно, например, минимизация задержки и максимизация точности. ## Где встречается - [[499. Как…
wikiBayesian optimization
# Bayesian optimization ## Определение Вероятностный метод оптимизации, использующий гауссовские процессы для эффективного поиска оптимальных гиперпараметров. ## Где встречается - [[800+ вопросов|800+ вопросов…
wikioperator optimization
# operator optimization ## Определение Операторные оптимизации в TensorRT-LLM, направленные на ускорение инференса за счёт слияния и перестановки операций. ## Где встречается…
wikifirst-order optimization
# first-order optimization ## Определение Метод оптимизации, использующий градиенты (производные первого порядка) для поиска минимума функции. В контексте LLM применяется для…
wikioff-policy
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikiAnt Colony Optimization
# Ant Colony Optimization ## Определение Метод оптимизации, основанный на имитации поведения муравьёв, используемый для поиска кратчайших путей в графах. ## Где встречается…
wikiweight optimization
# weight optimization ## Определение Подбор коэффициента w для баланса между векторным и BM25 поиском в гибридном поиске. Используется для настройки вклада…
wikiParticle Swarm Optimization
# Particle Swarm Optimization ## Определение Метод роевого интеллекта, моделирующий социальное поведение частиц для поиска оптимального решения в пространстве параметров. ## Где встречается…
wikiBradley-Terry model
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikiLayout Optimization
# Layout Optimization ## Определение Перестановка тензоров в модели для улучшения использования кэша процессора, дающая до 10% ускорения инференса. Применяется в ONNX…
wikiimplicit reward
# implicit reward ## Определение Вознаграждение, неявно моделируемое в Direct Preference Optimization (DPO) через отношение вероятностей текущей и референсной политики, заменяющее явную…
wikiMulti-Task Optimization
# Multi-Task Optimization ## Определение Одновременная оптимизация нескольких шагов цепочки в DSPy, направленная на улучшение общей метрики. Требует валидации, чтобы избежать…
wikiProximal Policy Optimization
# Proximal Policy Optimization ## Определение Алгоритм обучения с подкреплением с клиппингом, используемый в RLHF для стабильного обучения. ## Где встречается - [[36. Что…
wikiградиентная оптимизация
# градиентная оптимизация ## Определение Метод белого ящика для генерации adversarial примеров (например, текста) путём оптимизации через градиенты модели, чтобы эмбеддинг стал…
wikiDPO loss
# DPO loss ## Определение Функция потерь Direct Preference Optimization: -log σ(β * (log(π(y_w)/π_ref(y_w)) - log…
answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?
…3. **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики/Proximal Policy Optimization\|Proximal Policy Optimization]])** с [[Вики/Reward\|reward]] сигналом. Замораживаем [[Вики…
wikitrajectory distillation
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikibatch search
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
wikiReward score
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
wikistep merging
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
wikiDeepSeek-R1
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
wikiDPOTrainer
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
wikibehavior cloning
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
wikipartition function
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
wikiDPO gradient
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
wikiReference point
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
wikiclosed-form expression
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
wikiLoss aversion
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
wikicollapse
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
answerЧто такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?
…Что такое PPO (Proximal Policy Optimization) и почему он используется в RLHF? ## Краткий тезис **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики…
wikiprospect theory
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
wikiCommon subexpression elimination
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…
wikirule-based reward
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
wikiShape specialization
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…
answerКак работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?
…Он проще **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики/Policy\|Policy]] Optimization|Proximal [[Вики/Policy\|Policy]] Optimization]])**, так как не требует…
wikiLLM compiler
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…
wikidead code elimination
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…
wikizero-order search
# zero-order search ## Определение Перебор дискретных вариантов (промптов, ветвей) без использования градиентов, альтернатива first-order оптимизации. ## Где встречается - [[153. Что…
wikiAnthropic HH-RLHF
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
wikiconstant folding
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…