Поиск

wikiSparse rewards
…разреженных наград — ситуация в обучении с подкреплением, когда вознаграждение даётся только при полном успехе, что затрудняет обучение. ## Где встречается - [[334…
wikiSWE-agent
# SWE-agent ## Определение Пример агента, использующего онлайн-обучение с подкреплением для решения задач программной инженерии (например, исправления кода). ## Где встречается…
wikiDense rewards
…Упрощает обучение с подкреплением за счёт частой обратной связи и улучшения credit assignment. ## Где встречается - [[334. Как вы делаете online…
wikiReinforcement Learning
# Reinforcement Learning ## Определение Метод обучения агентов через взаимодействие со средой с получением наград или штрафов; применяется для выравнивания LLM и…
wikiReinforcement Learning from Human Feedback
# Reinforcement Learning from Human Feedback ## Определение Метод обучения с подкреплением на основе человеческих предпочтений, включающий обучение модели вознаграждения и оптимизацию…
wikiDirect Preference Optimization
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной|138. Что такое «оценка с подкреплением» (RLHF…
answerКак оптимизировать траектории агента (trajectory optimization)?
…Обучение с подкреплением (RL) с наградой за длину Термин **обучение с подкреплением (Reinforcement Learning, RL)** — агент обучается взаимодействовать со средой…
answerЧто такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной?
…архитектура и обучение | | [[140. Как вы проверяете, что новая версия модели не сломала старые кейсы\|140]] | PPO для fine-tuning…
answerКак работает алгоритм ReST (Reinforced Self-Training) и когда он лучше PPO?
…Связь с другими методами ReST является частным случаем **EM (Expectation-Maximization)** в обучении с подкреплением: Grow — E-шаг (генерация+оценка…
answerЧто такое curriculum learning for synthetic data (обучение на легких данных сначала)?
…Curriculum Learning (обучение по учебному плану) **[[Вики/Curriculum Learning\|Curriculum Learning]]** — это парадигма машинного обучения, вдохновлённая человеческим обучением: сначала изучаются…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать latent reasoning (COCONUT)
…adaptation (LoRA) | | 123 | Continuous embeddings in transformers | | 205 | Обучение с подкреплением для reasoning | | 300 | Prompt engineering and reasoning | | 415 | Model…
answerЧто такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?
…Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)\|331]] | Как fine-tune LLM с подкреплением? | --- ## Навигация (Obsidian…
answerЧто такое reward hacking в RLHF и как его детектировать?
…Reward Hacking (взлом награды) **[[Вики/reward hacking\|Reward hacking]]** — это побочный эффект обучения с подкреплением, когда [[Вики/AI agents\|агент…
answerЧто такое RLAIF (RL from AI Feedback) и как он масштабируется?
…RLAIF (Reinforcement Learning from AI Feedback) [[Вики/RLAIF\|RLAIF]] — это вариант обучения с подкреплением, в котором [[Вики/reward model\|reward…
answerЧто такое representation engineering (RepE) и зачем он нужен?
…Learning from Human Feedback\|RLHF]] ([[Вики/Reinforcement Learning\|обучение с подкреплением]] на основе человеческих предпочтений), [[Вики/representation engineering\|RepE]] работает…
answerКак моделировать экономику агентов с ограниченными бюджетами на API вызовы?
…Используются методы задачи о рюкзаке (knapsack) для статического планирования и **обучение с подкреплением** (bandit-алгоритмы) для динамической адаптации. В многопользовательской…
answerКаковы 3 главных bias-эффекта LLM-as-Judge и как их детектировать?
…Подход популярен в [[Вики/Reinforcement Learning from Human Feedback\|RLHF]] ([[Вики/Reinforcement Learning\|обучение с подкреплением]] на основе человеческой обратной…
answerЧто такое «многошаговая когерентность» (coherence illusion) в cascading agent systems?
…Если ответы согласованы, но неверны — это [[Вики/feature\|признак]] систематической [[Вики/ошибки\|ошибки]]. ### 7.5. Обучение с подкреплением (RLHF) [[Вики…
answerЧто такое calibration в контексте reward model для RLHF?
…калибровка]] позволяет корректно интерпретировать разницу в среднем вознаграждении. - [[Вики/Reinforcement Learning\|Обучение с подкреплением]]: Некоторые варианты RL (например, [[Вики/A2C…
answerКак LLM используются для code generation с формальной верификацией (Dafny, Lean)?
…доказательство на [[Вики/Faithfulness\|корректность]]. - [[Вики/retrieval\|Поиск]] с подкреплением — система ищет [[Вики/sequence\|последовательность]] тактик, максимизирующую награду (количество доказанных…
answerКак вы делаете agent evaluation на длинных horizon (100+ шагов)?
…Это затрудняет [[Вики/Reinforcement Learning\|обучение с подкреплением]] (RL) и оценку «что пошло не так». Даже при успешном финале [[Вики…
answerКак вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)?
…Используется при обучении с подкреплением ([[Вики/Reinforcement Learning from Human Feedback\|RLHF]], [[Вики/Proximal Policy Optimization\|PPO]]) или при настройке…
indexИндекс разборов
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной\|138. Что такое «оценка с подкреплением» (RLHF…
indexОглавление
…Что такое «оценка с подкреплением» (RLHF evaluation) и как она отличается от обычной\|138. Что такое «оценка с подкреплением» (RLHF…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Обучение начинается с легких, постепенно добавляются сложные. Для синтетических данных: сначала генерируем легкие вопросы, потом сложные. Улучшает конвергенцию и финальное…