中文翻译暂不可用,显示俄语原文。

Tensor parallelism

Tensor parallelism

Определение

Стратегия распределения модели, при которой веса слоёв разрезаются между GPU, а attention heads распределяются. Требует частых коммуникаций (AllReduce) на каждом forward pass, эффективна в пределах одного узла.

Где встречается

Навигация