English translation is not available yet. Showing Russian content.

Tensor parallelism

Tensor parallelism

Определение

Стратегия распределения модели, при которой веса слоёв разрезаются между GPU, а attention heads распределяются. Требует частых коммуникаций (AllReduce) на каждом forward pass, эффективна в пределах одного узла.

Где встречается

Навигация