Поиск

wikiregularization retrieval
# regularization retrieval ## Определение Метод защиты компонента поиска в RAG от adversarial атак, накладывающий ограничения (например, штраф за слишком высокую косинусную…
wikiDelta regularization
# Delta regularization ## Определение Дельта-регуляризация (delta regularization) — техника регуляризации, штрафующая отклонение весов модели от их исходных предобученных значений. Используется для…
wikiRegularization
# Regularization ## Определение Набор техник (например, dropout, L2-штраф, weight decay), применяемых при обучении модели для предотвращения переобучения путём штрафования излишней…
wikiImplicit KL regularization
# Implicit KL regularization ## Определение Свойство алгоритма Direct Preference Optimization (DPO), которое неявно вводит регуляризацию через KL-дивергенцию между текущей и…
wikiconsistency regularization
# consistency regularization ## Определение Метод semi-supervised обучения, штрафующий модель за разные предсказания на аугментированных версиях одного объекта. ## Где встречается - [[274…
wikiWeight Decay
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiBernoulli distribution
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiDropConnect
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiFFN dropout
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiEmbedding dropout
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiResidual dropout
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiStochastic depth
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiAttention dropout
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikico-adaptation
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiIMDb
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiUnderfitting
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiGPT-3
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiдекодирующая голова
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiLabel smoothing
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiMonte Carlo Dropout
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiresidual connection
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikipre-training
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiLoss
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiPosition Encoding
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiKL penalty
# KL penalty ## Определение Штраф в RLHF, препятствующий слишком сильному отклонению новой политики от reference политики. Вычисляется как KL-дивергенция между…
wikiLayerNorm
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiOverfitting
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiFFN
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiдатасеты
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiDistilGPT2
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiSoftmax
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
answerКак работает dropout и зачем он нужен в LLM? (regularization)
…Как работает dropout и зачем он нужен в LLM? (regularization) ## Краткий тезис **[[Вики/Weight Decay\|Dropout]]** — это техника регуляризации, которая…
wikiTransformer
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
answerКак вы предотвращаете catastrophic forgetting при fine-tuning?
…Regularization]]: [[Вики/Weight Decay\|L2-регуляризация]] на отклонение от исходных весов ([[Вики/Weight Decay\|weight decay]], [[Вики/Delta regularization\|delta…
wikiPyTorch
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiKL divergence
# KL divergence ## Определение Мера различия между двумя вероятностными распределениями. Используется в RLHF для штрафа за отклонение от референсной модели и…
wikiLlama
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
wikiAttention
…Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…
answerЧто такое residual stream и как он связан с информационным потоком в трансформере?
…Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Что такое Multi-Head Attention и как он работает…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить self-training с псевдо-метками
…Указать выводы и возможные улучшения (например, изменение порога по итерациям, использвание [[Вики/consistency regularization\|consistency regularization]]). Ожидаемый результат этапа - Файл…
answerЧто такое logit lens (интерпретация скрытых состояний)?
…Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Что такое tuned lens и чем он отличается от…
answerЧто такое adversarial retrieval (атака на retrieval компонент)?
…многие универсальные атаки, но может снизить recall. ### 5.2. Regularization retrieval (регуляризация поиска) Добавление шума к эмбеддингам запроса или документов…
answerКак вы проверяете, что fine-tuned модель не сломала базовые способности?
…модели), чтобы модель «вспоминала» общие знания. - [[Вики/Weight Decay\|Regularization]] – L2 penalty или elastic weight consolidation (EWC), который штрафует за…
answerКакой размер датасета нужен для fine-tuning?
…Если данных мало, [[Вики/model\|модель]] запоминает [[Вики/Noise\|шум]] и теряет обобщающую способность. [[Вики/Regularization\|Регуляризация]] ([[Вики/Weight Decay…
answerЧто такое residual connections и зачем они нужны в трансформере?
…Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Feed-forward network в трансформере | | [[680. Как работает Mixture…
answerЧто такое KL divergence и где она применяется в LLM (RLHF, distillation)?
…Неявная KL [[Вики/Regularization\|регуляризация]] в [[Вики/Direct Preference Optimization\|DPO]]: - [[Вики/Direct Preference Optimization\|DPO]] выводится из задачи максимизации…
answerЧто такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)?
…Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Learning rate schedules для LLM | --- ## Навигация (Obsidian) - Предыдущий: [[669…
answerКак детектировать reward hacking в RLHF?
…Дообучаем RM на этих примерах. ### 5.4 Regularization через entropy bonus Штраф за низкую энтропию политики — стимулирует модель не становиться…
answerКак работает Whisper архитектурно для ASR (Automatic Speech Recognition)?
…steps\|warmup]] и [[Вики/Cosine Decay\|cosine decay]]. - [[Вики/Regularization\|Регуляризация]]: dropout, [[Вики/Weight Decay\|weight decay]]. - Модели разных размеров…
answerКак работает нормализация перед attention (pre-norm) vs после (post-norm)?
…Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Позиционное кодирование (Positional Encoding) | | [[676. Что такое residual stream…