3D parallelism
3D parallelism
Определение
Комбинация трёх уровней параллелизма (data, tensor, pipeline) для распределённого обучения больших моделей (100B+ параметров). Стандартный подход для масштабирования на тысячи GPU.
Где встречается
- 401. Как работает tensor parallelism для LLM инференса В чем отличие от pipeline parallelism
- 423. Как работает tensor parallelism для LLM training Чем отличается от инференса
- 424. Что такое pipeline parallelism и проблема pipeline bubbles
- 425. Как работает sequence parallelism в контексте LLM
- 426. Что такое 3D parallelism (data + tensor + pipeline)
- 461. Почему training 70B модели требует optimizer sharding (ZeRO-3)
- 840. Когда tensor parallelism хуже pipeline parallelism
- 800+ вопросов