tiling
tiling
Определение
Техника разбиения данных на небольшие блоки, помещающиеся в быструю память (например, shared memory GPU), для повышения локальности данных, уменьшения обращений к глобальной памяти и ускорения вычислений; ключевая для FlashAttention и оптимизации матричных операций.
Где встречается
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 302. Что такое warp divergence в CUDA и как он влияет на attention
- 304. Что такое FlashAttention с точки зрения CUDA programming
- 324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
- 425. Как работает sequence parallelism в контексте LLM
- 432. Как работает FlashAttention-3 технически Чем отличается от FA2
- 474. Как работает FlashAttention для training (не только inference)
- 667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 704. Что такое bank conflicts в shared memory и как их избежать
- 711. Как работает speculative execution на GPU для LLM (branch prediction)
- 712. Что такое Cooperative Groups в CUDA и как использовать для attention
- 844. Как работает FlashAttention-3 математически
- 800+ вопросов
- 293. Настроить conflict resolution между агентами