Поиск

  • wikiregularization retrieval

    # regularization retrieval ## Определение Метод защиты компонента поиска в RAG от adversarial атак, накладывающий ограничения (например, штраф за слишком высокую косинусную…

  • wikiDelta regularization

    # Delta regularization ## Определение Дельта-регуляризация (delta regularization) — техника регуляризации, штрафующая отклонение весов модели от их исходных предобученных значений. Используется для…

  • wikiRegularization

    # Regularization ## Определение Набор техник (например, dropout, L2-штраф, weight decay), применяемых при обучении модели для предотвращения переобучения путём штрафования излишней…

  • wikiImplicit KL regularization

    # Implicit KL regularization ## Определение Свойство алгоритма Direct Preference Optimization (DPO), которое неявно вводит регуляризацию через KL-дивергенцию между текущей и…

  • wikiconsistency regularization

    # consistency regularization ## Определение Метод semi-supervised обучения, штрафующий модель за разные предсказания на аугментированных версиях одного объекта. ## Где встречается - [[274…

  • wikiWeight Decay

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiBernoulli distribution

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiDropConnect

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiFFN dropout

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiEmbedding dropout

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiResidual dropout

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiStochastic depth

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiAttention dropout

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikico-adaptation

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiIMDb

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiUnderfitting

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiGPT-3

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiдекодирующая голова

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiLabel smoothing

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiMonte Carlo Dropout

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiresidual connection

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikipre-training

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiLoss

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiPosition Encoding

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiKL penalty

    # KL penalty ## Определение Штраф в RLHF, препятствующий слишком сильному отклонению новой политики от reference политики. Вычисляется как KL-дивергенция между…

  • wikiLayerNorm

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiOverfitting

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiFFN

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiдатасеты

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiDistilGPT2

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiSoftmax

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • answerКак работает dropout и зачем он нужен в LLM? (regularization)

    …Как работает dropout и зачем он нужен в LLM? (regularization) ## Краткий тезис **[[Вики/Weight Decay\|Dropout]]** — это техника регуляризации, которая…

  • wikiTransformer

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • answerКак вы предотвращаете catastrophic forgetting при fine-tuning?

    Regularization]]: [[Вики/Weight Decay\|L2-регуляризация]] на отклонение от исходных весов ([[Вики/Weight Decay\|weight decay]], [[Вики/Delta regularization\|delta…

  • wikiPyTorch

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiKL divergence

    # KL divergence ## Определение Мера различия между двумя вероятностными распределениями. Используется в RLHF для штрафа за отклонение от референсной модели и…

  • wikiLlama

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • wikiAttention

    …Как работает dropout и зачем он нужен в LLM (regularization)|675. Как работает dropout и зачем он нужен в LLM…

  • answerЧто такое residual stream и как он связан с информационным потоком в трансформере?

    …Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Что такое Multi-Head Attention и как он работает…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить self-training с псевдо-метками

    …Указать выводы и возможные улучшения (например, изменение порога по итерациям, использвание [[Вики/consistency regularization\|consistency regularization]]). Ожидаемый результат этапа - Файл…

  • answerЧто такое logit lens (интерпретация скрытых состояний)?

    …Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Что такое tuned lens и чем он отличается от…

  • answerЧто такое adversarial retrieval (атака на retrieval компонент)?

    …многие универсальные атаки, но может снизить recall. ### 5.2. Regularization retrieval (регуляризация поиска) Добавление шума к эмбеддингам запроса или документов…

  • answerКак вы проверяете, что fine-tuned модель не сломала базовые способности?

    …модели), чтобы модель «вспоминала» общие знания. - [[Вики/Weight Decay\|Regularization]] – L2 penalty или elastic weight consolidation (EWC), который штрафует за…

  • answerКакой размер датасета нужен для fine-tuning?

    …Если данных мало, [[Вики/model\|модель]] запоминает [[Вики/Noise\|шум]] и теряет обобщающую способность. [[Вики/Regularization\|Регуляризация]] ([[Вики/Weight Decay…

  • answerЧто такое residual connections и зачем они нужны в трансформере?

    …Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Feed-forward network в трансформере | | [[680. Как работает Mixture…

  • answerЧто такое KL divergence и где она применяется в LLM (RLHF, distillation)?

    …Неявная KL [[Вики/Regularization\|регуляризация]] в [[Вики/Direct Preference Optimization\|DPO]]: - [[Вики/Direct Preference Optimization\|DPO]] выводится из задачи максимизации…

  • answerЧто такое loss landscape LLM и как оно влияет на обучение (sharp vs flat minima)?

    …Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Learning rate schedules для LLM | --- ## Навигация (Obsidian) - Предыдущий: [[669…

  • answerКак детектировать reward hacking в RLHF?

    …Дообучаем RM на этих примерах. ### 5.4 Regularization через entropy bonus Штраф за низкую энтропию политики — стимулирует модель не становиться…

  • answerКак работает Whisper архитектурно для ASR (Automatic Speech Recognition)?

    …steps\|warmup]] и [[Вики/Cosine Decay\|cosine decay]]. - [[Вики/Regularization\|Регуляризация]]: dropout, [[Вики/Weight Decay\|weight decay]]. - Модели разных размеров…

  • answerКак работает нормализация перед attention (pre-norm) vs после (post-norm)?

    …Как работает dropout и зачем он нужен в LLM (regularization)\|675]] | Позиционное кодирование (Positional Encoding) | | [[676. Что такое residual stream…