Поиск
- wikiregularization retrieval
# regularization retrieval ## Определение Метод защиты компонента поиска в RAG от adversarial атак, накладывающий ограничения (например, штраф за слишком высокую косинусную…
- wikiDelta regularization
# Delta regularization ## Определение Дельта-регуляризация (delta regularization) — техника регуляризации, штрафующая отклонение весов модели от их исходных предобученных значений. Используется для…
- wikiRegularization
# Regularization ## Определение Набор техник (например, dropout, L2-штраф, weight decay), применяемых при обучении модели для предотвращения переобучения путём штрафования излишней…
- wikiImplicit KL regularization
# Implicit KL regularization ## Определение Свойство алгоритма Direct Preference Optimization (DPO), которое неявно вводит регуляризацию через KL-дивергенцию между текущей и…
- wikiconsistency regularization
# consistency regularization ## Определение Метод semi-supervised обучения, штрафующий модель за разные предсказания на аугментированных версиях одного объекта. ## Где встречается - [[274…
- wikiWeight Decay
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiBernoulli distribution
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiDropConnect
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiFFN dropout
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiEmbedding dropout
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiResidual dropout
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiStochastic depth
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiAttention dropout
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikico-adaptation
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiIMDb
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiUnderfitting
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiGPT-3
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiдекодирующая голова
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiLabel smoothing
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiMonte Carlo Dropout
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiresidual connection
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikipre-training
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiLoss
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiPosition Encoding
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiKL penalty
# KL penalty ## Определение Штраф в RLHF, препятствующий слишком сильному отклонению новой политики от reference политики. Вычисляется как KL-дивергенция между…
- wikiLayerNorm
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiOverfitting
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiFFN
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiдатасеты
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiDistilGPT2
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiSoftmax
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- answerКак работает dropout и зачем он нужен в LLM? (regularization)
…Как работает dropout и зачем он нужен в LLM? (regularization) ## Краткий тезис **[[Вики/Weight Decay\|Dropout]]** — это техника регуляризации, которая…
- wikiTransformer
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- answerКак вы предотвращаете catastrophic forgetting при fine-tuning?
…Regularization]]: [[Вики/Weight Decay\|L2-регуляризация]] на отклонение от исходных весов ([[Вики/Weight Decay\|weight decay]], [[Вики/Delta regularization\|delta…
- wikiPyTorch
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiKL divergence
# KL divergence ## Определение Мера различия между двумя вероятностными распределениями. Используется в RLHF для штрафа за отклонение от референсной модели и…
- wikiLlama
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- wikiAttention
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
- answerЧто такое residual stream и как он связан с информационным потоком в трансформере?
…Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Что такое Multi-Head Attention и как он работает…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить self-training с псевдо-метками
…Указать выводы и возможные улучшения (например, изменение порога по итерациям, использвание [[Вики/consistency regularization\|consistency regularization]]). Ожидаемый результат этапа - Файл…
- answerЧто такое logit lens (интерпретация скрытых состояний)?
…Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Что такое tuned lens и чем он отличается от…
- answerЧто такое adversarial retrieval (атака на retrieval компонент)?
…многие универсальные атаки, но может снизить recall. ### 5.2. Regularization retrieval (регуляризация поиска) Добавление шума к эмбеддингам запроса или документов…
- answerКак вы проверяете, что fine-tuned модель не сломала базовые способности?
…модели), чтобы модель «вспоминала» общие знания. - [[Вики/Weight Decay\|Regularization]] – L2 penalty или elastic weight consolidation (EWC), который штрафует за…
- answerКакой размер датасета нужен для fine-tuning?
…Если данных мало, [[Вики/model\|модель]] запоминает [[Вики/Noise\|шум]] и теряет обобщающую способность. [[Вики/Regularization\|Регуляризация]] ([[Вики/Weight Decay…
- answerЧто такое residual connections и зачем они нужны в трансформере?
…Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Feed-forward network в трансформере | | [[680. Как работает Mixture…
- answerЧто такое KL divergence и где она применяется в LLM (RLHF, distillation)?
…Неявная KL [[Вики/Regularization\|регуляризация]] в [[Вики/Direct Preference Optimization\|DPO]]: - [[Вики/Direct Preference Optimization\|DPO]] выводится из задачи максимизации…
- answerЧто такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)?
…Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Learning rate schedules для LLM | --- ## Навигация (Obsidian) - Предыдущий: [[669…
- answerКак детектировать reward hacking в RLHF?
…Дообучаем RM на этих примерах. ### 5.4 Regularization через entropy bonus Штраф за низкую энтропию политики — стимулирует модель не становиться…
- answerКак работает Whisper архитектурно для ASR (Automatic Speech Recognition)?
…steps\|warmup]] и [[Вики/Cosine Decay\|cosine decay]]. - [[Вики/Regularization\|Регуляризация]]: dropout, [[Вики/Weight Decay\|weight decay]]. - Модели разных размеров…
- answerКак работает нормализация перед attention (pre-norm) vs после (post-norm)?
…Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Позиционное кодирование (Positional Encoding) | | [[676. Что такое residual stream…