Поиск

wikidistributed training
# distributed training ## Определение Метод обучения модели на нескольких GPU или узлах с использованием параллелизма данных или модели, часто с техниками…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Влияние на обучение LLM ### 5.1. Распределённое обучение Обучение больших моделей требует тензорного параллелизма (разбиение слоёв между GPU) и конвейерного…
answerКакие фреймворки для fine-tuning вы используете?
…Позволяет задать всё ([[Вики/model\|модель]], [[Вики/dataset\|датасет]], [[Вики/Parameter-Efficient Fine-Tuning\|PEFT]], распределённое [[Вики/training\|обучение]]) в…
answerЧто такое gradient clipping и зачем он нужен при обучении LLM?
…градиенты накапливаются по времени, усиливая эффект. - [[Вики/training\|Обучение]] на кластерах (распределённое) → один NaN на одном [[Вики/GPU\|GPU]] может…
answerКак вы проверяете, что RLHF не сломал базовые способности модели?
…Biases]] | Логирование метрик в реальном времени | | [[Вики/Ray\|Ray]] | Распределённое обучение и evaluation | **Пример команды для [[Вики/Evaluation\|evaluation]] через…
answerЧто такое data poisoning атака на fine-tuning и как защититься?
…Robust aggregation | Средняя (против небольшой доли отравленных) | Низкая | Средняя | Распределённое обучение | | Мониторинг | Низкая (обнаружение после атаки) | Нет | Средняя | В продакшене…
answerКакие 3 книги/курса вы рекомендуете по production LLM?
…Human Feedback\|RLHF]]. - Численные аспекты: [[Вики/Quantization\|квантование]], распределённое [[Вики/training\|обучение]]. - Для [[Вики/production\|production]]: знание того, как [[Вики…
answerКак работает gradient checkpointing в DeepSpeed?
…3** | Разделение состояний оптимизатора, градиентов, параметров | 4-8x | Минимальный | Распределённое обучение | | **Mixed Precision (FP16)** | Хранение в FP16, вычисления в FP32…
answerЧто такое MIG (Multi-Instance GPU) и как настроить для разных LLM?
…модель, вы работаете с большими батчами, или вам нужно распределённое обучение. - **Мониторинг:** Отслеживайте использование каждого инстанса через `nvidia-smi mig…
answerКак масштабировать vLLM на несколько GPU/нод?
…Как вы измеряете uncertainty в ответах LLM (logit-based vs ensemble methods)\|500]] | Распределённое обучение моделей (Data Parallelism, Pipeline Parallelism…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить GPU Direct RDMA
…Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 45 | Что такое GPU Direct RDMA и как оно ускоряет распределённое обучение? | | 78…