tiling

Определение

Техника разбиения данных на небольшие блоки, помещающиеся в быструю память (например, shared memory GPU), для повышения локальности данных, уменьшения обращений к глобальной памяти и ускорения вычислений; ключевая для FlashAttention и оптимизации матричных операций.

Где встречается

301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
302. Что такое warp divergence в CUDA и как он влияет на attention
304. Что такое FlashAttention с точки зрения CUDA programming
324. Что такое TVM (Apache TVM) и зачем он нужен для AI инференса
425. Как работает sequence parallelism в контексте LLM
432. Как работает FlashAttention-3 технически Чем отличается от FA2
474. Как работает FlashAttention для training (не только inference)
667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)
703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
704. Что такое bank conflicts в shared memory и как их избежать
711. Как работает speculative execution на GPU для LLM (branch prediction)
712. Что такое Cooperative Groups в CUDA и как использовать для attention
844. Как работает FlashAttention-3 математически
800+ вопросов
293. Настроить conflict resolution между агентами

tiling

tiling

Определение

Где встречается

Навигация