DeepSpeed-Ulysses

Определение

Метод sequence parallelism на уровне attention heads, использующий all-to-all для эффективной работы с длинными контекстами.