Поиск

  • wikiEmbedding normalization

    # Embedding normalization ## Определение Приведение эмбеддингов к единичной длине (L2-нормализация), что улучшает косинусное сходство и может снижать эффективность некоторых атак…

  • wikinormalization

    # normalization ## Определение Приведение данных к единому формату или масштабу (например, деление на √d_k в attention) для улучшения обучения, стабильности…

  • wikiMin-Max Scaling

    # Min-Max Scaling ## Определение Метод нормализации данных, линейно преобразующий значения в диапазон [0,1]. Применяется для приведения scores BM25 и…

  • wikiL2 Normalization

    # L2 Normalization ## Определение Нормализация эмбеддингов для улучшения качества косинусного поиска или использования индексов типа IndexFlatIP. ## Где встречается - [[546. Как вы…

  • wikigradient flow

    # gradient flow ## Определение Поток градиентов через сеть; предварительная нормализация (pre-norm) улучшает его, предотвращая затухание градиентов. ## Где встречается - [[800+ вопросов…

  • wikiInstance Normalization

    # Instance Normalization ## Определение Нормализация по одному примеру, применяется в стилизации изображений и GAN. ## Где встречается - [[654. Как работает LayerNorm и…

  • wikiNFKC

    # NFKC ## Определение Нормализация Unicode, используемая в токенизаторах, например SentencePiece, для приведения текста к каноническому виду. Упрощает сопоставление символов. ## Где встречается…

  • wikipost-norm

    …Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…

  • wikiLength normalization

    # Length normalization ## Определение Техника коррекции вероятности последовательности при генерации текста, предотвращающая предпочтение коротких вариантов. Также компонент BM25, учитывающий длину документа…

  • answerКак работает LayerNorm и RMSNorm? В чем разница и почему RMSNorm быстрее?

    …Зачем нужна нормализация в нейронных сетях [[Вики/normalization\|Нормализация]] стабилизирует [[Вики/training\|обучение]], уменьшая внутренний [[Вики/Covariate shift\|ковариатный сдвиг…

  • wikiresidual connection

    …Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…

  • wikiattention normalization

    # attention normalization ## Определение Модификация softmax-функции, позволяющая выдавать нулевые веса для нерелевантных токенов (например, sparse softmax или ReLU attention), используется…

  • wikipre-normalization

    …Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…

  • wikiwarmup steps

    …Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…

  • wikiLayerNorm

    …Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…

  • wikiScore normalization

    # Score normalization ## Определение Процесс приведения оценок релевантности из разных поисковых методов (векторный, лексический) к единому диапазону (например, [0,1]) для…

  • answerЧто такое residual connections и зачем они нужны в трансформере?

    …Как работает нормализация перед attention (pre-norm) vs после (post-norm)\|673]] | Layer normalization в трансформере | | [[674. Что такое logit…

  • wikiclipping

    …Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…

  • wikiBatchNorm

    # BatchNorm ## Определение Слой нормализации, который стабилизирует распределение активаций, нормализуя их по мини-батчу; менее подходит для трансформеров по сравнению с…

  • wikiInput sanitization

    # Input sanitization ## Определение Техника фильтрации или трансформации входа (экранирование, нормализация, удаление токенов) для нейтрализации вредоносных инструкций и защиты от jailbreak…

  • wikiMulti-Head Attention

    …Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…

  • answerКак работает RMSNorm (Root Mean Square Normalization) и чем лучше LayerNorm?

    …Для [[Вики/RMSNorm\|RMSNorm]]: - Вычисление RMS: \(d\) возведений в квадрат, \(d\) сложений, 1 деление, 1 квадратный корень. - [[Вики/normalization\|Нормализация

  • wikiWeight Decay

    …Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…

  • wikiFFN

    …Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…

  • answerКак работает нормализация перед attention (pre-norm) vs после (post-norm)?

    …Как работает нормализация перед attention (pre-norm) vs после (post-norm)? ## Краткий тезис [[Вики/pre-normalization\|Pre-norm]] и [[Вики…

  • answerGRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?

    …Повышение стабильности: - Групповая нормализация автоматически адаптирует масштаб наград, уменьшая необходимость тонкой настройки гиперпараметров. - Меньше проблем с расходимостью политики. 4. Эффективность…

  • answerЧто такое residual stream и как он связан с информационным потоком в трансформере?

    …Pre-LN vs Post-LN В оригинальной статье «Attention is All You Need» использовалась [[Вики/post-norm\|Post-LN]] (нормализация

  • wikiTransformer

    …Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить trajectory coverage для агентов

    …Сбор и нормализация данных (1 час) Действия 1. Загрузить [[Вики/logs\|логи]] в [[Вики/pandas\|pandas]] [[Вики/pandas DataFrame\|DataFrame…

  • answerКак вы защищаете LLM от градиентных атак (white-box jailbreak)?

    …Основные приёмы: - Нормализация текста: удаление повторяющихся символов, замена необычных Unicode-символов, декодирование эмодзи → текст. - Удаление длинных повторяющихся паттернов: GCG-суффиксы…

  • answerКак вы делаете hybrid search (vector + keyword) в production на 10M документов?

    …Ключевые вызовы — нормализация скоров, latency, шардирование и A/B-тестирование весов. --- ## 1. Термин: Hybrid Search (гибридный поиск) **[[Вики/гибридный поиск…

  • answerПочему small batch size (<32) ухудшает training стабильность?

    …loss = model(batch) loss = loss / accumulation_steps # нормализация loss.backward() if (step + 1) % accumulation_steps == 0: optimizer.step() optimizer.zero…

  • answerКакие данные нужны для fine-tuning на кастомный стиль общения?

    …Данные обязательно проходят этапы очистки (удаление [[Вики/PII\|PII]], дубликатов, [[Вики/normalization\|нормализация]]) и аугментации ([[Вики/generation\|генерация]] вариаций через…

  • answerКак вы обрабатываете смену форматов документов (legacy + новые форматы)?

    …2. [[Вики/normalization\|Нормализация]] → очистка от лишних пробелов, управляющих символов, приведение кодировки. 3. [[Вики/chunking\|Разбиение на чанки]] ([[Вики/chunking…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить hybrid search с весами и оптимизировать w

    …IndexFlatIP vs IndexHNSW | | 68 | Нормализация фичей в ML | | 73 | Оптимизация гиперпараметров (grid / random / bayesian) | | 89 | BEIR benchmark: структура, форматы данных…

  • answerЧто такое attention sink и почему он возникает в длинных контекстах?

    …Минусы - Дополнительные параметры и [[Вики/Compute costs\|вычислительные затраты]]. - Сложнее обучать. ### 6.3 Нормализация внимания (attention normalization) Идея модифицировать [[Вики…

  • answerЧто такое logit lens (интерпретация скрытых состояний)?

    …Как работает нормализация перед attention (pre-norm) vs после (post-norm)\|673]] | Как интерпретировать residual stream в трансформерах? | | [[675. Как…

  • answerЧто такое SwiGLU и почему он используется вместо ReLU в современных LLM?

    …Как работает RMSNorm (Root Mean Square Normalization) и чем лучше LayerNorm\|280]] | Как работает нормализация (LayerNorm, RMSNorm) в LLM? | --- ## 13…

  • answerКак работает process reward model (PRM) vs outcome reward model (ORM)?

    …быть несбалансированы (один длинный шаг против нескольких коротких), требуется нормализация. ## 5. Сравнение ORM и PRM | Характеристика | ORM | PRM | |-------------------------------|---------------------------------------|---------------------------------------| | Выход | Одно…

  • answerЧто такое гибридный поиск и когда он нужен?

    …Сравнение методов объединения | Метод | Сложность | Нужна нормализация | Чувствительность к выбросам | Настройка | Когда лучше | | --- | --- | --- | --- | --- | --- | | Weighted Sum | Низкая | Да | Высокая | α | Известны…

  • answerКак работает attention с линейной сложностью (Linformer, Performer, Longformer)?

    …feat, K_feat.transpose(-2, -1)) # (batch, n, n) # нормализация (упрощённо, без D) attn = attn / (n ** 0.5) if mask…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить mmap для embeddings

    …Оптимизация - Проблема [[Вики/normalization\|Нормализация]] каждого чанка на лету требует чтения всех данных. - Решение 1 Хранить предварительно нормализованные векторы (требует…

  • answerКак вы документируете RAG-систему для команды?

    …embedding\|эмбеддинги]]** используются ([[Вики/model\|модель]], размерность, [[Вики/normalization\|нормализация]]) - тип векторной БД и её параметры (расстояние — [[Вики/косинусная близость…

  • answerКак работает Whisper (architecture, tokenization, training) для ASR?

    …chunking\|окно]] 25 мс, шаг 10 мс. - [[Вики/normalization\|Нормализация]]: [[Вики/Centering\|вычитание среднего]] и деление на [[Вики/standard deviation…

  • answerКак работает dropout и зачем он нужен в LLM? (regularization)

    …Как работает нормализация перед attention (pre-norm) vs после (post-norm)\|673]] | Что такое position encoding? | | [[676. Что такое residual…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с кэшированием ответов

    …Fallback-механизмы при отказе кэша | | 804 | Оптимизация ключей кэша (нормализация, хэши) | | 888 | Построение графика latency в Python | ## 10. Чек-лист…

  • answerКак работает greedy decoding vs beam search vs sampling?

    …увеличение K улучшает результат, но растёт время. - Нормализация длины (normalization|length normalization) предотвращает предпочтение коротких последовательностей. ### 3.3 Недостатки - Высокая…

  • answerЧто такое operator fusion в компиляторах и какие паттерны fusion существуют?

    …операций (например, [[Вики/GEMM\|матричное умножение]], активация, [[Вики/normalization\|нормализация]]) объединяются в один **[[Вики/kernel\|kernel]]** (вычислительное ядро). Это снижает…

  • answerКак вы тестируете robustness LLM к adversarial input (не только injection)?

    …исправление]] опечаток (spell-check), удаление подозрительных символов, [[Вики/normalization\|нормализация]]. - [[Вики/defensive distillation\|Defensive distillation]] — [[Вики/training\|обучение]] модели на…

  • answerКак вы детектируете и фиксите attention sinks в длинных контекстах?

    …параметров и [[Вики/Latency\|время инференса]]. --- ## 6. Фикс 3: Нормализация (QK-normalization, LayerNorm) [[Вики/QK-normalization\|QK-normalization]] — применение [[Вики…