Поиск

wikiEmbedding normalization
# Embedding normalization ## Определение Приведение эмбеддингов к единичной длине (L2-нормализация), что улучшает косинусное сходство и может снижать эффективность некоторых атак…
wikinormalization
# normalization ## Определение Приведение данных к единому формату или масштабу (например, деление на √d_k в attention) для улучшения обучения, стабильности…
wikiMin-Max Scaling
# Min-Max Scaling ## Определение Метод нормализации данных, линейно преобразующий значения в диапазон [0,1]. Применяется для приведения scores BM25 и…
wikiL2 Normalization
# L2 Normalization ## Определение Нормализация эмбеддингов для улучшения качества косинусного поиска или использования индексов типа IndexFlatIP. ## Где встречается - [[546. Как вы…
wikigradient flow
# gradient flow ## Определение Поток градиентов через сеть; предварительная нормализация (pre-norm) улучшает его, предотвращая затухание градиентов. ## Где встречается - [[800+ вопросов…
wikiInstance Normalization
# Instance Normalization ## Определение Нормализация по одному примеру, применяется в стилизации изображений и GAN. ## Где встречается - [[654. Как работает LayerNorm и…
wikiNFKC
# NFKC ## Определение Нормализация Unicode, используемая в токенизаторах, например SentencePiece, для приведения текста к каноническому виду. Упрощает сопоставление символов. ## Где встречается…
wikipost-norm
…Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…
wikiLength normalization
# Length normalization ## Определение Техника коррекции вероятности последовательности при генерации текста, предотвращающая предпочтение коротких вариантов. Также компонент BM25, учитывающий длину документа…
answerКак работает LayerNorm и RMSNorm? В чем разница и почему RMSNorm быстрее?
…Зачем нужна нормализация в нейронных сетях [[Вики/normalization\|Нормализация]] стабилизирует [[Вики/training\|обучение]], уменьшая внутренний [[Вики/Covariate shift\|ковариатный сдвиг…
wikiresidual connection
…Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…
wikiattention normalization
# attention normalization ## Определение Модификация softmax-функции, позволяющая выдавать нулевые веса для нерелевантных токенов (например, sparse softmax или ReLU attention), используется…
wikipre-normalization
…Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…
wikiwarmup steps
…Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…
wikiLayerNorm
…Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…
wikiScore normalization
# Score normalization ## Определение Процесс приведения оценок релевантности из разных поисковых методов (векторный, лексический) к единому диапазону (например, [0,1]) для…
answerЧто такое residual connections и зачем они нужны в трансформере?
…Как работает нормализация перед attention (pre-norm) vs после (post-norm)\|673]] | Layer normalization в трансформере | | [[674. Что такое logit…
wikiclipping
…Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…
wikiBatchNorm
# BatchNorm ## Определение Слой нормализации, который стабилизирует распределение активаций, нормализуя их по мини-батчу; менее подходит для трансформеров по сравнению с…
wikiInput sanitization
# Input sanitization ## Определение Техника фильтрации или трансформации входа (экранирование, нормализация, удаление токенов) для нейтрализации вредоносных инструкций и защиты от jailbreak…
wikiMulti-Head Attention
…Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…
answerКак работает RMSNorm (Root Mean Square Normalization) и чем лучше LayerNorm?
…Для [[Вики/RMSNorm\|RMSNorm]]: - Вычисление RMS: \(d\) возведений в квадрат, \(d\) сложений, 1 деление, 1 квадратный корень. - [[Вики/normalization\|Нормализация…
wikiWeight Decay
…Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…
wikiFFN
…Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…
answerКак работает нормализация перед attention (pre-norm) vs после (post-norm)?
…Как работает нормализация перед attention (pre-norm) vs после (post-norm)? ## Краткий тезис [[Вики/pre-normalization\|Pre-norm]] и [[Вики…
answerGRPO (Group Relative Policy Optimization) vs PPO — чем отличается и зачем нужен?
…Повышение стабильности: - Групповая нормализация автоматически адаптирует масштаб наград, уменьшая необходимость тонкой настройки гиперпараметров. - Меньше проблем с расходимостью политики. 4. Эффективность…
answerЧто такое residual stream и как он связан с информационным потоком в трансформере?
…Pre-LN vs Post-LN В оригинальной статье «Attention is All You Need» использовалась [[Вики/post-norm\|Post-LN]] (нормализация…
wikiTransformer
…Как работает нормализация перед attention (pre-norm) vs после (post-norm)|673. Как работает нормализация перед attention (pre-norm) vs…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить trajectory coverage для агентов
…Сбор и нормализация данных (1 час) Действия 1. Загрузить [[Вики/logs\|логи]] в [[Вики/pandas\|pandas]] [[Вики/pandas DataFrame\|DataFrame…
answerКак вы защищаете LLM от градиентных атак (white-box jailbreak)?
…Основные приёмы: - Нормализация текста: удаление повторяющихся символов, замена необычных Unicode-символов, декодирование эмодзи → текст. - Удаление длинных повторяющихся паттернов: GCG-суффиксы…
answerКак вы делаете hybrid search (vector + keyword) в production на 10M документов?
…Ключевые вызовы — нормализация скоров, latency, шардирование и A/B-тестирование весов. --- ## 1. Термин: Hybrid Search (гибридный поиск) **[[Вики/гибридный поиск…
answerПочему small batch size (<32) ухудшает training стабильность?
…loss = model(batch) loss = loss / accumulation_steps # нормализация loss.backward() if (step + 1) % accumulation_steps == 0: optimizer.step() optimizer.zero…
answerКакие данные нужны для fine-tuning на кастомный стиль общения?
…Данные обязательно проходят этапы очистки (удаление [[Вики/PII\|PII]], дубликатов, [[Вики/normalization\|нормализация]]) и аугментации ([[Вики/generation\|генерация]] вариаций через…
answerКак вы обрабатываете смену форматов документов (legacy + новые форматы)?
…2. [[Вики/normalization\|Нормализация]] → очистка от лишних пробелов, управляющих символов, приведение кодировки. 3. [[Вики/chunking\|Разбиение на чанки]] ([[Вики/chunking…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить hybrid search с весами и оптимизировать w
…IndexFlatIP vs IndexHNSW | | 68 | Нормализация фичей в ML | | 73 | Оптимизация гиперпараметров (grid / random / bayesian) | | 89 | BEIR benchmark: структура, форматы данных…
answerЧто такое attention sink и почему он возникает в длинных контекстах?
…Минусы - Дополнительные параметры и [[Вики/Compute costs\|вычислительные затраты]]. - Сложнее обучать. ### 6.3 Нормализация внимания (attention normalization) Идея модифицировать [[Вики…
answerЧто такое logit lens (интерпретация скрытых состояний)?
…Как работает нормализация перед attention (pre-norm) vs после (post-norm)\|673]] | Как интерпретировать residual stream в трансформерах? | | [[675. Как…
answerЧто такое SwiGLU и почему он используется вместо ReLU в современных LLM?
…Как работает RMSNorm (Root Mean Square Normalization) и чем лучше LayerNorm\|280]] | Как работает нормализация (LayerNorm, RMSNorm) в LLM? | --- ## 13…
answerКак работает process reward model (PRM) vs outcome reward model (ORM)?
…быть несбалансированы (один длинный шаг против нескольких коротких), требуется нормализация. ## 5. Сравнение ORM и PRM | Характеристика | ORM | PRM | |-------------------------------|---------------------------------------|---------------------------------------| | Выход | Одно…
answerЧто такое гибридный поиск и когда он нужен?
…Сравнение методов объединения | Метод | Сложность | Нужна нормализация | Чувствительность к выбросам | Настройка | Когда лучше | | --- | --- | --- | --- | --- | --- | | Weighted Sum | Низкая | Да | Высокая | α | Известны…
answerКак работает attention с линейной сложностью (Linformer, Performer, Longformer)?
…feat, K_feat.transpose(-2, -1)) # (batch, n, n) # нормализация (упрощённо, без D) attn = attn / (n ** 0.5) if mask…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить mmap для embeddings
…Оптимизация - Проблема [[Вики/normalization\|Нормализация]] каждого чанка на лету требует чтения всех данных. - Решение 1 Хранить предварительно нормализованные векторы (требует…
answerКак вы документируете RAG-систему для команды?
…embedding\|эмбеддинги]]** используются ([[Вики/model\|модель]], размерность, [[Вики/normalization\|нормализация]]) - тип векторной БД и её параметры (расстояние — [[Вики/косинусная близость…
answerКак работает Whisper (architecture, tokenization, training) для ASR?
…chunking\|окно]] 25 мс, шаг 10 мс. - [[Вики/normalization\|Нормализация]]: [[Вики/Centering\|вычитание среднего]] и деление на [[Вики/standard deviation…
answerКак работает dropout и зачем он нужен в LLM? (regularization)
…Как работает нормализация перед attention (pre-norm) vs после (post-norm)\|673]] | Что такое position encoding? | | [[676. Что такое residual…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с кэшированием ответов
…Fallback-механизмы при отказе кэша | | 804 | Оптимизация ключей кэша (нормализация, хэши) | | 888 | Построение графика latency в Python | ## 10. Чек-лист…
answerКак работает greedy decoding vs beam search vs sampling?
…увеличение K улучшает результат, но растёт время. - Нормализация длины (normalization|length normalization) предотвращает предпочтение коротких последовательностей. ### 3.3 Недостатки - Высокая…
answerЧто такое operator fusion в компиляторах и какие паттерны fusion существуют?
…операций (например, [[Вики/GEMM\|матричное умножение]], активация, [[Вики/normalization\|нормализация]]) объединяются в один **[[Вики/kernel\|kernel]]** (вычислительное ядро). Это снижает…
answerКак вы тестируете robustness LLM к adversarial input (не только injection)?
…исправление]] опечаток (spell-check), удаление подозрительных символов, [[Вики/normalization\|нормализация]]. - [[Вики/defensive distillation\|Defensive distillation]] — [[Вики/training\|обучение]] модели на…
answerКак вы детектируете и фиксите attention sinks в длинных контекстах?
…параметров и [[Вики/Latency\|время инференса]]. --- ## 6. Фикс 3: Нормализация (QK-normalization, LayerNorm) [[Вики/QK-normalization\|QK-normalization]] — применение [[Вики…