Поиск

  • wikipre-training

    # pre-training ## Определение Pre-training (предобучение) — начальный этап обучения модели с нуля на большом корпусе данных с использованием кросс-энтропии…

  • wikiTest-Time Training

    # Test-Time Training ## Определение Тип нейросетевых слоёв, которые дообучаются на тестовой последовательности во время инференса, адаптируясь к входным данным. ## Где…

  • wikiSGD

    …Почему small batch size (32) ухудшает training стабильность|468. Почему small batch size (32) ухудшает training стабильность]] - [[469. Как работает…

  • wikioverflow

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…

  • wikitraining

    # training ## Определение Процесс оптимизации параметров модели на обучающих данных, включающий выбор формата чисел (BF16, FP8) и использование аппаратных ускорителей. ## Где…

  • wikitwo-stage training

    # two-stage training ## Определение Two-stage training — стратегия обучения, при которой модель сначала обучается на синтетических данных, а затем дообучается…

  • wikigradient scaling

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…

  • wikioffline training

    # offline training ## Определение Процесс обучения модели на предварительно собранных и сохранённых данных (например, Parquet в S3), без потокового получения данных…

  • wikiTraining Stability

    # Training Stability ## Определение Свойство процесса обучения, при котором loss не расходится; достигается curriculum learning, а small batch size его ухудшает…

  • wikimixed precision training

    # mixed precision training ## Определение Mixed precision training — техника использования разных форматов чисел (FP16, BF16, FP32) для ускорения обучения и инференса…

  • wikiself-training

    # self-training ## Определение Метод, при котором модель обучается на собственных предсказаниях, отфильтрованных по критерию. ## Где встречается - [[339. Как работает алгоритм…

  • wikiTraining dataset

    # Training dataset ## Определение Снапшот данных на конкретную дату, создаваемый из feature groups с point-in-time join в Hopsworks. ## Где…

  • wikiTraining Data Poisoning

    # Training Data Poisoning ## Определение Атака, при которой в обучающие данные внедряются вредоносные примеры, чтобы модель усвоила бэкдоры или неправильное поведение…

  • wikijoint training

    # joint training ## Определение Метод обучения, при котором в каждом батче смешиваются реальные и синтетические данные для повышения качества и устойчивости…

  • wikidistributed training

    # distributed training ## Определение Метод обучения модели на нескольких GPU или узлах с использованием параллелизма данных или модели, часто с техниками…

  • wikiIterated Training

    # Iterated Training ## Определение Циклический процесс обучения: обучение модели вознаграждения, обучение политики с PPO, сбор новых предпочтений, дообучение модели вознаграждения. Применяется…

  • wikiTTT Layer

    # TTT Layer ## Определение Слой нейронной сети, реализующий Test-Time Training: содержит внутреннюю мини-модель, которая обновляется градиентным спуском во время…

  • wikiself-supervision

    …Что такое Test-Time Training (TTT) слои и как они работают|718. Что такое Test-Time Training (TTT) слои и…

  • wikiTrainingArguments

    # TrainingArguments ## Определение Конфигурация обучения, используемая в библиотеках трансформеров для задания гиперпараметров. ## Где встречается - [[133. Реализовать cost-aware routing|133. Реализовать…

  • wikiAdam optimizer

    …Почему training 70B модели требует optimizer sharding (ZeRO-3)|461. Почему training 70B модели требует optimizer sharding (ZeRO-3)]] - [[465…

  • wikiFP8-aware training

    # FP8-aware training ## Определение Метод обучения или дообучения модели с имитацией FP8 квантизации для минимизации потери точности при последующем FP8…

  • wikiLLM training

    # LLM training ## Определение Процесс обучения большой языковой модели, включающий такие техники параллелизации, как tensor parallelism. Отличается от инференса распределением вычислений…

  • wikitraining cost proportionality

    # training cost proportionality ## Определение Принцип, согласно которому стоимость обучения модели прямо пропорциональна количеству обработанных токенов, поэтому эффективный токенизатор снижает затраты…

  • wikitraining objective

    # training objective ## Определение Целевая функция обучения модели; в Variational Speculative Decoding меняется с предсказания следующего токена на предсказание того, что…

  • wikidivergence

    …Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[800+ вопросов|800…

  • wikiunderflow

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…

  • wikiPaLM 2

    # PaLM 2 ## Определение Языковая модель Google, на которой была продемонстрирована эффективность алгоритма Reinforced Self-Training (ReST). ## Где встречается - [[339. Как…

  • wikiStep-level training

    # Step-level training ## Определение Метод обучения, при котором модель получает обратную связь на каждом шаге генерации, а не только на…

  • wikicurriculum adversarial training

    # curriculum adversarial training ## Определение Метод защиты LLM от атак, при котором сложность атак постепенно увеличивается в процессе обучения. ## Где встречается…

  • wikiBLIP

    # BLIP ## Определение Модель мультимодального pre-training, объединяющая vision и language. BLIP умеет генерировать подписи к изображениям и фильтровать шум в…

  • wikiFP32 master weights

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…

  • wikirobust training

    # robust training ## Определение Метод обучения, устойчивый к отравленным данным, включающий техники защиты от Data Poisoning, такие как robust aggregation и…

  • wikitorch.cuda.amp.autocast

    …Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] ## Навигация…

  • wikiensemble adversarial training

    # ensemble adversarial training ## Определение Метод защиты LLM от градиентных атак, при котором модель обучается на атаках, сгенерированных несколькими различными моделями…

  • wikiFP32

    …Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…

  • wikiTensorBoard

    …Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[56. Реализовать diffusion…

  • wikiQuantization-aware training

    # Quantization-aware training ## Определение Метод обучения модели с имитацией эффектов квантизации (например, FP8 или INT4) на этапе прямого прохода. Позволяет…

  • wikiUp-training

    # Up-training ## Определение Метод дообучения модели с multi-head attention (MHA), при котором веса преобразуются в grouped-query attention (GQA…

  • wiki3D parallelism

    …Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…

  • wikigradient noise

    …Почему small batch size (32) ухудшает training стабильность|468. Почему small batch size (32) ухудшает training стабильность]] - [[472. Почему gradient…

  • wikiPost-training quantization

    # Post-training quantization ## Определение Метод квантизации модели после завершения обучения без дополнительного fine-tuning; включает GPTQ, AWQ и выполняется на…

  • wikigradient accumulation

    …Почему small batch size (32) ухудшает training стабильность|468. Почему small batch size (32) ухудшает training стабильность]] - [[472. Почему gradient…

  • wikigradient norms

    …Почему small batch size (32) ухудшает training стабильность|468. Почему small batch size (32) ухудшает training стабильность]] - [[485. Как вы…

  • wikiMultitask Learning

    …Как работает Whisper (architecture, tokenization, training) для ASR|363. Как работает Whisper (architecture, tokenization, training) для ASR]] - [[543. Как работает…

  • wikiQLoRA

    …Почему small batch size (32) ухудшает training стабильность|468. Почему small batch size (32) ухудшает training стабильность]] - [[469. Как работает…

  • wikimemory footprint

    …Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…

  • wikiHidden state

    …Что такое Test-Time Training (TTT) слои и как они работают|718. Что такое Test-Time Training (TTT) слои и…

  • wikiProgressive training

    # Progressive training ## Определение Метод обучения, при котором сложность данных или задач увеличивается постепенно: от коротких последовательностей к длинным, от простых…

  • wikistepLR

    …Настроить self-training с псевдо-метками|274. Настроить self-training с псевдо-метками]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…

  • wikiActivation Statistics

    …Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] ## Навигация - [[00. Индекс…