Поиск

  • wikiactivation offloading

    # activation offloading ## Определение Выгрузка активаций в CPU RAM для освобождения GPU памяти при обучении с длинным контекстом. ## Где встречается - [[465…

  • wikiselective activation recomputation

    # selective activation recomputation ## Определение Метод оптимизации памяти при обучении и инференсе больших моделей, при котором пересчитываются только выбранные активации (например…

  • wikiactivation variance

    # activation variance ## Определение Цель инициализации — стабильная дисперсия активаций между слоями. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс терминов…

  • wikiactivations

    # activations ## Определение Промежуточные значения нейронов; мониторинг активаций может выявить проблемы, такие как насыщение или NaN. ## Где встречается - [[800+ вопросов|800…

  • wikiActivation quantization

    # Activation quantization ## Определение Квантование промежуточных значений (активаций), обычно до INT8. ## Где встречается - [[444. Почему 4-bit inference иногда медленнее 8…

  • wikiActivation Statistics

    # Activation Statistics ## Определение Среднее, std, min/max активаций, помогающие детектировать насыщение нейронов. ## Где встречается - [[485. Как вы дебажите training instability…

  • wikiActivation patching

    # Activation patching ## Определение Метод механистической интерпретируемости, заменяющий активации одного слоя на другой для выявления причинно-следственных связей. ## Где встречается - [[193…

  • wikiActivation steering

    # Activation steering ## Определение Частный случай Representation Engineering (RepE), сдвиг активаций вдоль концептуального направления для контроля поведения модели. ## Где встречается - [[297…

  • wikiContrastive Activation Addition

    # Contrastive Activation Addition ## Определение Метод улучшения активаций модели с нормализацией и выбором оптимального слоя для усиления желаемых свойств. ## Где встречается…

  • wikitorch.utils.checkpoint

    …Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[480. Как работает selective activation recomputation|480. Как работает selective activation

  • wikiактивационная разреженность

    # активационная разреженность ## Определение Свойство MoE-моделей, при котором каждый токен активирует лишь малую часть параметров (top-k экспертов), снижая вычислительные…

  • answerЧто такое activation offloading и когда он нужен?

    …Что такое activation offloading и когда он нужен? ## Краткий тезис **[[Вики/activation offloading\|Activation offloading]]** — это техника перемещения промежуточных активаций…

  • wikiTransformerBlock

    …Как работает selective activation recomputation|480. Как работает selective activation recomputation]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • answerКак работает selective activation recomputation?

    …Selective activation recomputation — идея [[Вики/selective activation recomputation\|Selective activation recomputation]] ([[Вики/selective activation recomputation\|выборочный пересчёт активаций]]) — это более…

  • wikimemory-speed tradeoff

    …Как работает selective activation recomputation|480. Как работает selective activation recomputation]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00. Индекс разборов…

  • wikiOptimal checkpointing

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] ## Навигация…

  • wikiSelective checkpointing

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] ## Навигация…

  • wikiFull checkpointing

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] ## Навигация…

  • wikinn.Sequential

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] ## Навигация…

  • wikiModel parallelism

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[471…

  • wikitorch.cuda.memory_summary

    …Как работает selective activation recomputation|480. Как работает selective activation recomputation]] - [[846. Как дебажить memory fragmentation в LLM сервере|846…

  • wikiCheckpoints

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[465…

  • wikiPeak memory

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[52…

  • wikiSparse computation

    # Sparse computation ## Определение Режим вычислений, при котором активируется только часть параметров (например, эксперты в MoE) или используются разреженные матрицы, что…

  • wikiprofiler

    …Как работает selective activation recomputation|480. Как работает selective activation recomputation]] - [[632. Как работает Infini-attention (Google, 2024) для бесконечного…

  • wikiaccumulation steps

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[800…

  • wikicomputation graph

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[800…

  • wikioverhead

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[765…

  • answerЧто такое representation engineering (RepE) и зачем он нужен?

    …Формально: `[[Вики/Concept direction\|direction]] = mean(activations_positive) - mean(activations_negative)` ### 2.2 Применение (Steering) - Во [[Вики/p50\|время генерации…

  • wikibackward pass

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[664…

  • wikiBatchNorm

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[472…

  • wikiforward pass

    …Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[480. Как работает selective activation recomputation|480. Как работает selective activation

  • wikiAARRR metrics

    # AARRR metrics ## Определение Модель воронки (Acquisition, Activation, Retention, Revenue, Referral) для анализа онбординга пользователей. ## Где встречается - [[89. Спроектировать onboarding для…

  • answerЧто такое activation recomputation (checkpointing) и зачем оно нужно?

    …Что такое activation recomputation (checkpointing) и зачем оно нужно? ## Краткий тезис [[Вики/Checkpoints\|Activation recomputation]] (также [[Вики/torch.utils.checkpoint…

  • wikibackpropagation

    …Как работает selective activation recomputation|480. Как работает selective activation recomputation]] - [[570. Что такое tree search agents (MCTS for LLM…

  • wikigradient accumulation

    …Как работает selective activation recomputation|480. Как работает selective activation recomputation]] - [[485. Как вы дебажите training instability (loss spikes, divergence…

  • wikiTop-k routing

    # Top-k routing ## Определение Стратегия выбора k наиболее подходящих экспертов для каждого токена, ограничивающая вычислительную нагрузку. Ключевой механизм разреженного инференса…

  • wikimixed precision training

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[464…

  • wikiSwiGLU

    # SwiGLU ## Определение Функция активации, комбинирующая Swish и гейтинг (SwiGLU(x) = Swish(Wx+b) ⊙ (Vx+c)), используемая в современных LLM как…

  • wikiGELU

    # GELU ## Определение Гладкая функция активации, аппроксимирующая ReLU, определяемая как x * Φ(x), где Φ — функция стандартного нормального распределения. Используется в…

  • wikiAttention

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[466…

  • wikicontext window

    …Как работает selective activation recomputation|480. Как работает selective activation recomputation]] - [[632. Как работает Infini-attention (Google, 2024) для бесконечного…

  • wikiPipeline parallelism

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[465…

  • wikiWeight Decay

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[472…

  • wikiFFN

    …Как работает selective activation recomputation|480. Как работает selective activation recomputation]] - [[482. Как работает QLoRA (Quantized LoRA) для training|482…

  • answerZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?

    …Что такое activation recomputation (checkpointing) и зачем оно нужно\|463]] | Offload (CPU/NVMe) в DeepSpeed: когда и зачем? | | [[464. Почему…

  • wikiLong Context

    …Для эффективной обработки применяются методы вроде FlashAttention, MQA, activation offloading. ## Где встречается - [[283. Что такое selective attention в контексте long…

  • answerЧто такое logit lens и как он помогает понимать внутренние представления?

    …Как работает извлечение знаний (knowledge editing) из LLM без переобучения\|296]] | Как работает activation patching? | | [[300. Как вы сравниваете две…

  • answerКак работает gradient checkpointing в DeepSpeed?

    …Как работает gradient checkpointing в DeepSpeed? ## Краткий тезис **[[Вики/Checkpoints\|Gradient checkpointing]]** (также известный как [[Вики/Checkpoints\|activation checkpointing]]) — это…

  • wikiTransformer

    …Что такое activation recomputation (checkpointing) и зачем оно нужно|463. Что такое activation recomputation (checkpointing) и зачем оно нужно]] - [[466…