DeepSpeed
DeepSpeed
Определение
Библиотека Microsoft для оптимизации обучения и инференса больших моделей. Включает ZeRO-Offload, gradient checkpointing и другие техники для распределённого обучения.
Где встречается
- 22. Какие методы fine-tuning вы знаете и какой используете чаще всего
- 33. Какие фреймворки для fine-tuning вы используете
- 61. Как вы разворачиваете LLM в production (self-hosted)
- 300. Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 424. Что такое pipeline parallelism и проблема pipeline bubbles
- 425. Как работает sequence parallelism в контексте LLM
- 426. Что такое 3D parallelism (data + tensor + pipeline)
- 462. ZeRO-1 vs ZeRO-2 vs ZeRO-3 что и когда использовать
- 465. Как работает gradient checkpointing в DeepSpeed
- 471. Как работает FSDP (Fully Sharded Data Parallel) в PyTorch
- 473. Что такое torch.compile и как он ускоряет training
- 478. Как работает distributed optimizer в PyTorch (torch.distributed.optim)
- 710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
- 800+ вопросов
- 215. Настроить expert parallelism для Mixtral
- 244. Fine-tune QLoRA на 1 GPU