DeepSpeed

Определение

Библиотека Microsoft для оптимизации обучения и инференса больших моделей. Включает ZeRO-Offload, gradient checkpointing и другие техники для распределённого обучения.

Где встречается

22. Какие методы fine-tuning вы знаете и какой используете чаще всего
33. Какие фреймворки для fine-tuning вы используете
61. Как вы разворачиваете LLM в production (self-hosted)
300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
337. Как вы проверяете, что RLHF не сломал базовые способности модели
424. Что такое pipeline parallelism и проблема pipeline bubbles
425. Как работает sequence parallelism в контексте LLM
426. Что такое 3D parallelism (data + tensor + pipeline)
462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
465. Как работает gradient checkpointing в DeepSpeed
471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch
473. Что такое torch.compile и как он ускоряет training
478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)
710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
800+ вопросов
215. Настроить expert parallelism для Mixtral
244. Fine-tune QLoRA на 1 GPU

DeepSpeed

DeepSpeed

Определение

Где встречается

Навигация