English translation is not available yet. Showing Russian content.
reduce
reduce
Определение
Операция свёртки (например, суммирование, поиск максимума) в GPU-программировании; требует синхронизации потоков и используется в вычислениях softmax и attention.
Где встречается
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)
- 704. Что такое bank conflicts в shared memory и как их избежать
- 712. Что такое Cooperative Groups в CUDA и как использовать для attention
- 800+ вопросов
- 273. Реализовать curriculum learning