English translation is not available yet. Showing Russian content.

sequence parallelism

sequence parallelism

Определение

Метод распределённого обучения, при котором длинная последовательность токенов разрезается на части между GPU, что позволяет обрабатывать ultra-long контексты. В отличие от tensor parallelism, здесь делится не hidden dimension, а длина последовательности.

Где встречается

Навигация