Поиск
- wikiactivation offloading
# activation offloading ## Определение Выгрузка активаций в CPU RAM для освобождения GPU памяти при обучении с длинным контекстом. ## Где встречается - [[465…
- wikiselective activation recomputation
# selective activation recomputation ## Определение Метод оптимизации памяти при обучении и инференсе больших моделей, при котором пересчитываются только выбранные активации (например…
- wikiactivation variance
# activation variance ## Определение Цель инициализации — стабильная дисперсия активаций между слоями. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…
- wikiactivations
# activations ## Определение Промежуточные значения нейронов; мониторинг активаций может выявить проблемы, такие как насыщение или NaN. ## Где встречается - [[800+ вопросов|800…
- wikiActivation quantization
# Activation quantization ## Определение Квантование промежуточных значений (активаций), обычно до INT8. ## Где встречается - [[444. Почему 4-bit inference иногда медленнее 8…
- wikiActivation Statistics
# Activation Statistics ## Определение Среднее, std, min/max активаций, помогающие детектировать насыщение нейронов. ## Где встречается - [[485. Как вы дебажите training instability…
- wikiActivation patching
# Activation patching ## Определение Метод механистической интерпретируемости, заменяющий активации одного слоя на другой для выявления причинно-следственных связей. ## Где встречается - [[193…
- wikiActivation steering
# Activation steering ## Определение Частный случай Representation Engineering (RepE), сдвиг активаций вдоль концептуального направления для контроля поведения модели. ## Где встречается - [[297…
- wikiContrastive Activation Addition
# Contrastive Activation Addition ## Определение Метод улучшения активаций модели с нормализацией и выбором оптимального слоя для усиления желаемых свойств. ## Где встречается…
- wikitorch.utils.checkpoint
…Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[480. Как работает selective activation recomputation|480. Как работает selective activation…
- wikiактивационная разреженность
# активационная разреженность ## Определение Свойство MoE-моделей, при котором каждый токен активирует лишь малую часть параметров (top-k экспертов), снижая вычислительные…
- answerЧто такое activation offloading и когда он нужен?
…Что такое activation offloading и когда он нужен? ## Краткий тезис **[[Вики/activation offloading\|Activation offloading]]** — это техника перемещения промежуточных активаций…
- wikiTransformerBlock
…Как работает selective activation recomputation|480. Как работает selective activation recomputation]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- answerКак работает selective activation recomputation?
…Selective activation recomputation — идея [[Вики/selective activation recomputation\|Selective activation recomputation]] ([[Вики/selective activation recomputation\|выборочный пересчёт активаций]]) — это более…
- wikimemory-speed tradeoff
…Как работает selective activation recomputation|480. Как работает selective activation recomputation]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…
- wikiOptimal checkpointing
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] ## Навигация…
- wikiSelective checkpointing
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] ## Навигация…
- wikiFull checkpointing
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] ## Навигация…
- wikinn.Sequential
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] ## Навигация…
- wikiModel parallelism
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[471…
- wikitorch.cuda.memory_summary
…Как работает selective activation recomputation|480. Как работает selective activation recomputation]] - [[846. Как дебажить memory fragmentation в LLM сервере|846…
- wikiCheckpoints
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[465…
- wikiPeak memory
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[52…
- wikiSparse computation
# Sparse computation ## Определение Режим вычислений, при котором активируется только часть параметров (например, эксперты в MoE) или используются разреженные матрицы, что…
- wikiprofiler
…Как работает selective activation recomputation|480. Как работает selective activation recomputation]] - [[632. Как работает Infini-attention (Google, 2024) для бесконечного…
- wikiaccumulation steps
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[800…
- wikicomputation graph
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[800…
- wikioverhead
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[765…
- answerЧто такое representation engineering (RepE) и зачем он нужен?
…Формально: `[[Вики/Concept direction\|direction]] = mean(activations_positive) - mean(activations_negative)` ### 2.2 Применение (Steering) - Во [[Вики/p50\|время генерации…
- wikibackward pass
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[664…
- wikiBatchNorm
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[472…
- wikiforward pass
…Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[480. Как работает selective activation recomputation|480. Как работает selective activation…
- wikiAARRR metrics
# AARRR metrics ## Определение Модель воронки (Acquisition, Activation, Retention, Revenue, Referral) для анализа онбординга пользователей. ## Где встречается - [[89. Спроектировать onboarding для…
- answerЧто такое activation recomputation (checkpointing) и зачем оно нужно?
…Что такое activation recomputation (checkpointing) и зачем оно нужно? ## Краткий тезис [[Вики/Checkpoints\|Activation recomputation]] (также [[Вики/torch.utils.checkpoint…
- wikibackpropagation
…Как работает selective activation recomputation|480. Как работает selective activation recomputation]] - [[570. Что такое tree search agents (MCTS for LLM…
- wikigradient accumulation
…Как работает selective activation recomputation|480. Как работает selective activation recomputation]] - [[485. Как вы дебажите training instability (loss spikes, divergence…
- wikiTop-k routing
# Top-k routing ## Определение Стратегия выбора k наиболее подходящих экспертов для каждого токена, ограничивающая вычислительную нагрузку. Ключевой механизм разреженного инференса…
- wikimixed precision training
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[464…
- wikiSwiGLU
# SwiGLU ## Определение Функция активации, комбинирующая Swish и гейтинг (SwiGLU(x) = Swish(Wx+b) ⊙ (Vx+c)), используемая в современных LLM как…
- wikiGELU
# GELU ## Определение Гладкая функция активации, аппроксимирующая ReLU, определяемая как x * Φ(x), где Φ — функция стандартного нормального распределения. Используется в…
- wikiAttention
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[466…
- wikicontext window
…Как работает selective activation recomputation|480. Как работает selective activation recomputation]] - [[632. Как работает Infini-attention (Google, 2024) для бесконечного…
- wikiPipeline parallelism
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[465…
- wikiWeight Decay
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[472…
- wikiFFN
…Как работает selective activation recomputation|480. Как работает selective activation recomputation]] - [[482. Как работает QLoRA (Quantized LoRA) для training|482…
- answerZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?
…Что такое activation recomputation (checkpointing) и зачем оно нужно\|463]] | Offload (CPU/NVMe) в DeepSpeed: когда и зачем? | | [[464. Почему…
- wikiLong Context
…Для эффективной обработки применяются методы вроде FlashAttention, MQA, activation offloading. ## Где встречается - [[283. Что такое selective attention в контексте long…
- answerЧто такое logit lens и как он помогает понимать внутренние представления?
…Как работает извлечение знаний (knowledge editing) из LLM без переобучения\|296]] | Как работает activation patching? | | [[300. Как вы сравниваете две…
- answerКак работает gradient checkpointing в DeepSpeed?
…Как работает gradient checkpointing в DeepSpeed? ## Краткий тезис **[[Вики/Checkpoints\|Gradient checkpointing]]** (также известный как [[Вики/Checkpoints\|activation checkpointing]]) — это…
- wikiTransformer
…Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[466…