Поиск
- wikipre-training
# pre-training ## Определение Pre-training (предобучение) — начальный этап обучения модели с нуля на большом корпусе данных с использованием кросс-энтропии…
- wikiTest-Time Training
# Test-Time Training ## Определение Тип нейросетевых слоёв, которые дообучаются на тестовой последовательности во время инференса, адаптируясь к входным данным. ## Где…
- wikiSGD
…Почему small batch size (32) ухудшает training стабильность|468. Почему small batch size (32) ухудшает training стабильность]] - [[469. Как работает…
- wikioverflow
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…
- wikitraining
# training ## Определение Процесс оптимизации параметров модели на обучающих данных, включающий выбор формата чисел (BF16, FP8) и использование аппаратных ускорителей. ## Где…
- wikitwo-stage training
# two-stage training ## Определение Two-stage training — стратегия обучения, при которой модель сначала обучается на синтетических данных, а затем дообучается…
- wikigradient scaling
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…
- wikioffline training
# offline training ## Определение Процесс обучения модели на предварительно собранных и сохранённых данных (например, Parquet в S3), без потокового получения данных…
- wikiTraining Stability
# Training Stability ## Определение Свойство процесса обучения, при котором loss не расходится; достигается curriculum learning, а small batch size его ухудшает…
- wikimixed precision training
# mixed precision training ## Определение Mixed precision training — техника использования разных форматов чисел (FP16, BF16, FP32) для ускорения обучения и инференса…
- wikiself-training
# self-training ## Определение Метод, при котором модель обучается на собственных предсказаниях, отфильтрованных по критерию. ## Где встречается - [[339. Как работает алгоритм…
- wikiTraining dataset
# Training dataset ## Определение Снапшот данных на конкретную дату, создаваемый из feature groups с point-in-time join в Hopsworks. ## Где…
- wikiTraining Data Poisoning
# Training Data Poisoning ## Определение Атака, при которой в обучающие данные внедряются вредоносные примеры, чтобы модель усвоила бэкдоры или неправильное поведение…
- wikijoint training
# joint training ## Определение Метод обучения, при котором в каждом батче смешиваются реальные и синтетические данные для повышения качества и устойчивости…
- wikidistributed training
# distributed training ## Определение Метод обучения модели на нескольких GPU или узлах с использованием параллелизма данных или модели, часто с техниками…
- wikiIterated Training
# Iterated Training ## Определение Циклический процесс обучения: обучение модели вознаграждения, обучение политики с PPO, сбор новых предпочтений, дообучение модели вознаграждения. Применяется…
- wikiTTT Layer
# TTT Layer ## Определение Слой нейронной сети, реализующий Test-Time Training: содержит внутреннюю мини-модель, которая обновляется градиентным спуском во время…
- wikiself-supervision
…Что такое Test-Time Training (TTT) слои и как они работают|718. Что такое Test-Time Training (TTT) слои и…
- wikiTrainingArguments
# TrainingArguments ## Определение Конфигурация обучения, используемая в библиотеках трансформеров для задания гиперпараметров. ## Где встречается - [[133. Реализовать cost-aware routing|133. Реализовать…
- wikiAdam optimizer
…Почему training 70B модели требует optimizer sharding (ZeRO-3)|461. Почему training 70B модели требует optimizer sharding (ZeRO-3)]] - [[465…
- wikiFP8-aware training
# FP8-aware training ## Определение Метод обучения или дообучения модели с имитацией FP8 квантизации для минимизации потери точности при последующем FP8…
- wikiLLM training
# LLM training ## Определение Процесс обучения большой языковой модели, включающий такие техники параллелизации, как tensor parallelism. Отличается от инференса распределением вычислений…
- wikitraining cost proportionality
# training cost proportionality ## Определение Принцип, согласно которому стоимость обучения модели прямо пропорциональна количеству обработанных токенов, поэтому эффективный токенизатор снижает затраты…
- wikitraining objective
# training objective ## Определение Целевая функция обучения модели; в Variational Speculative Decoding меняется с предсказания следующего токена на предсказание того, что…
- wikidivergence
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[800+ вопросов|800…
- wikiunderflow
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…
- wikiPaLM 2
# PaLM 2 ## Определение Языковая модель Google, на которой была продемонстрирована эффективность алгоритма Reinforced Self-Training (ReST). ## Где встречается - [[339. Как…
- wikiStep-level training
# Step-level training ## Определение Метод обучения, при котором модель получает обратную связь на каждом шаге генерации, а не только на…
- wikicurriculum adversarial training
# curriculum adversarial training ## Определение Метод защиты LLM от атак, при котором сложность атак постепенно увеличивается в процессе обучения. ## Где встречается…
- wikiBLIP
# BLIP ## Определение Модель мультимодального pre-training, объединяющая vision и language. BLIP умеет генерировать подписи к изображениям и фильтровать шум в…
- wikiFP32 master weights
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…
- wikirobust training
# robust training ## Определение Метод обучения, устойчивый к отравленным данным, включающий техники защиты от Data Poisoning, такие как robust aggregation и…
- wikitorch.cuda.amp.autocast
…Как работает Mixed Precision Training (FP16 + FP32 master веса)|469. Как работает Mixed Precision Training (FP16 + FP32 master веса)]] ## Навигация…
- wikiensemble adversarial training
# ensemble adversarial training ## Определение Метод защиты LLM от градиентных атак, при котором модель обучается на атаках, сгенерированных несколькими различными моделями…
- wikiFP32
…Почему BF16 лучше FP16 для training|464. Почему BF16 лучше FP16 для training]] - [[469. Как работает Mixed Precision Training (FP16…
- wikiTensorBoard
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] - [[56. Реализовать diffusion…
- wikiQuantization-aware training
# Quantization-aware training ## Определение Метод обучения модели с имитацией эффектов квантизации (например, FP8 или INT4) на этапе прямого прохода. Позволяет…
- wikiUp-training
# Up-training ## Определение Метод дообучения модели с multi-head attention (MHA), при котором веса преобразуются в grouped-query attention (GQA…
- wiki3D parallelism
…Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…
- wikigradient noise
…Почему small batch size (32) ухудшает training стабильность|468. Почему small batch size (32) ухудшает training стабильность]] - [[472. Почему gradient…
- wikiPost-training quantization
# Post-training quantization ## Определение Метод квантизации модели после завершения обучения без дополнительного fine-tuning; включает GPTQ, AWQ и выполняется на…
- wikigradient accumulation
…Почему small batch size (32) ухудшает training стабильность|468. Почему small batch size (32) ухудшает training стабильность]] - [[472. Почему gradient…
- wikigradient norms
…Почему small batch size (32) ухудшает training стабильность|468. Почему small batch size (32) ухудшает training стабильность]] - [[485. Как вы…
- wikiMultitask Learning
…Как работает Whisper (architecture, tokenization, training) для ASR|363. Как работает Whisper (architecture, tokenization, training) для ASR]] - [[543. Как работает…
- wikiQLoRA
…Почему small batch size (32) ухудшает training стабильность|468. Почему small batch size (32) ухудшает training стабильность]] - [[469. Как работает…
- wikimemory footprint
…Как работает tensor parallelism для LLM training Чем отличается от инференса|423. Как работает tensor parallelism для LLM training Чем…
- wikiHidden state
…Что такое Test-Time Training (TTT) слои и как они работают|718. Что такое Test-Time Training (TTT) слои и…
- wikiProgressive training
# Progressive training ## Определение Метод обучения, при котором сложность данных или задач увеличивается постепенно: от коротких последовательностей к длинным, от простых…
- wikistepLR
…Настроить self-training с псевдо-метками|274. Настроить self-training с псевдо-метками]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiActivation Statistics
…Как вы дебажите training instability (loss spikes, divergence)|485. Как вы дебажите training instability (loss spikes, divergence)]] ## Навигация - [[00. Индекс…