Поиск
- wikitrajectory optimization
# trajectory optimization ## Определение Оптимизация последовательности действий агента для повышения эффективности, сокращения длины и стоимости выполнения задачи. ## Где встречается - [[895. Как…
- wikigraph optimization
# graph optimization ## Определение Набор техник (fusion, constant folding, layout optimization, memory pattern), применяемых к вычислительному графу модели для уменьшения времени…
- wikiOffline preference optimization
# Offline preference optimization ## Определение Группа методов выравнивания моделей, которые оптимизируют предпочтения на фиксированных датасетах без генерации новых данных в реальном…
- wikiIdentity Preference Optimization
# Identity Preference Optimization ## Определение Улучшение DPO, устраняющее гиперпараметр β. ## Где встречается - [[36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiCost optimization
# Cost optimization ## Определение Практика анализа и оптимизации затрат на облачные ресурсы, включая выбор типов инстансов и регионов с учётом частоты…
- wikiSimple Preference Optimization
# Simple Preference Optimization ## Определение Метод alignment, использующий среднюю длину ответа для регуляризации. ## Где встречается - [[36. Что такое DPO (Direct Preference…
- wikiOdds Ratio Preference Optimization
# Odds Ratio Preference Optimization ## Определение Метод выравнивания, объединяющий supervised fine-tuning и оптимизацию предпочтений в единую функцию потерь с использованием…
- answerЧто такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO?
…В отличие от **[[Вики/Direct Preference Optimization\|DPO]] ([[Вики/Direct Preference Optimization\|Direct Preference Optimization]])**, [[Вики/Kahneman-Tversky Optimization\|KTO…
- wikiKahneman-Tversky Optimization
# Kahneman-Tversky Optimization ## Определение Метод alignment, использующий только хорошие или плохие ответы без парных предпочтений, альтернатива DPO, основанный на теории…
- wikiGRPO
# GRPO ## Определение Group Relative Policy Optimization — метод оптимизации политики в RL для alignment LLM, не требующий отдельной модели вознаграждения, основанный…
- wikimulti-objective optimization
# multi-objective optimization ## Определение Задача оптимизации нескольких целевых функций одновременно, например, минимизация задержки и максимизация точности. ## Где встречается - [[499. Как…
- wikiBayesian optimization
# Bayesian optimization ## Определение Вероятностный метод оптимизации, использующий гауссовские процессы для эффективного поиска оптимальных гиперпараметров. ## Где встречается - [[800+ вопросов|800+ вопросов…
- wikioperator optimization
# operator optimization ## Определение Операторные оптимизации в TensorRT-LLM, направленные на ускорение инференса за счёт слияния и перестановки операций. ## Где встречается…
- wikifirst-order optimization
# first-order optimization ## Определение Метод оптимизации, использующий градиенты (производные первого порядка) для поиска минимума функции. В контексте LLM применяется для…
- wikioff-policy
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiAnt Colony Optimization
# Ant Colony Optimization ## Определение Метод оптимизации, основанный на имитации поведения муравьёв, используемый для поиска кратчайших путей в графах. ## Где встречается…
- wikiweight optimization
# weight optimization ## Определение Подбор коэффициента w для баланса между векторным и BM25 поиском в гибридном поиске. Используется для настройки вклада…
- wikiParticle Swarm Optimization
# Particle Swarm Optimization ## Определение Метод роевого интеллекта, моделирующий социальное поведение частиц для поиска оптимального решения в пространстве параметров. ## Где встречается…
- wikiBradley-Terry model
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikiLayout Optimization
# Layout Optimization ## Определение Перестановка тензоров в модели для улучшения использования кэша процессора, дающая до 10% ускорения инференса. Применяется в ONNX…
- wikiimplicit reward
# implicit reward ## Определение Вознаграждение, неявно моделируемое в Direct Preference Optimization (DPO) через отношение вероятностей текущей и референсной политики, заменяющее явную…
- wikiMulti-Task Optimization
# Multi-Task Optimization ## Определение Одновременная оптимизация нескольких шагов цепочки в DSPy, направленная на улучшение общей метрики. Требует валидации, чтобы избежать…
- wikiProximal Policy Optimization
# Proximal Policy Optimization ## Определение Алгоритм обучения с подкреплением с клиппингом, используемый в RLHF для стабильного обучения. ## Где встречается - [[36. Что…
- wikiградиентная оптимизация
# градиентная оптимизация ## Определение Метод белого ящика для генерации adversarial примеров (например, текста) путём оптимизации через градиенты модели, чтобы эмбеддинг стал…
- wikiDPO loss
# DPO loss ## Определение Функция потерь Direct Preference Optimization: -log σ(β * (log(π(y_w)/π_ref(y_w)) - log…
- answerЧто такое DPO (Direct Preference Optimization) и чем отличается от RLHF?
…3. **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики/Proximal Policy Optimization\|Proximal Policy Optimization]])** с [[Вики/Reward\|reward]] сигналом. Замораживаем [[Вики…
- wikitrajectory distillation
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikibatch search
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiReward score
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
- wikistep merging
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
- wikiDeepSeek-R1
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
- wikiDPOTrainer
…Что такое DPO (Direct Preference Optimization) и чем отличается от RLHF|36. Что такое DPO (Direct Preference Optimization) и чем…
- wikibehavior cloning
…Как оптимизировать траектории агента (trajectory optimization)|895. Как оптимизировать траектории агента (trajectory optimization)]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
- wikipartition function
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
- wikiDPO gradient
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
- wikiReference point
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
- wikiclosed-form expression
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
- wikiLoss aversion
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
- wikicollapse
…Как работает Direct Preference Optimization (DPO) в деталях (потеря, градиенты)|335. Как работает Direct Preference Optimization (DPO) в деталях (потеря…
- answerЧто такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?
…Что такое PPO (Proximal Policy Optimization) и почему он используется в RLHF? ## Краткий тезис **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики…
- wikiprospect theory
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
- wikiCommon subexpression elimination
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…
- wikirule-based reward
…GRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен|328. GRPO (Group Relative Policy Optimization) vs PPO…
- wikiShape specialization
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…
- answerКак работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?
…Он проще **[[Вики/Proximal Policy Optimization\|PPO]] ([[Вики/Policy\|Policy]] Optimization|Proximal [[Вики/Policy\|Policy]] Optimization]])**, так как не требует…
- wikiLLM compiler
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…
- wikidead code elimination
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…
- wikizero-order search
# zero-order search ## Определение Перебор дискретных вариантов (промптов, ветвей) без использования градиентов, альтернатива first-order оптимизации. ## Где встречается - [[153. Что…
- wikiAnthropic HH-RLHF
…Что такое KTO (Kahneman-Tversky Optimization) и чем отличается от DPO|336. Что такое KTO (Kahneman-Tversky Optimization) и чем…
- wikiconstant folding
…Как работает graph optimization в LLM компиляторах (constant folding, dead code elimination)|321. Как работает graph optimization в LLM компиляторах…