English translation is not available yet. Showing Russian content.
DeepSpeed-Ulysses
DeepSpeed-Ulysses
Определение
Метод sequence parallelism на уровне attention heads, использующий all-to-all для эффективной работы с длинными контекстами.
Где встречается
- 425. Как работает sequence parallelism в контексте LLM
- 650. Что такое memory-efficient attention для long context на 8x H100