L1 cache
L1 cache
Определение
Быстрая программируемая память внутри SM GPU, используемая для временных данных (например, блоков матриц при attention) и критически влияющая на производительность LLM-инференса.
Где встречается
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 704. Что такое bank conflicts в shared memory и как их избежать
- 705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
- 707. Как работает asynchronous execution на Hopper (copy engine vs compute)
- 712. Что такое Cooperative Groups в CUDA и как использовать для attention
- 726. Как предотвращать free-riding в multi-agent системе (агенты не вносят вклад, но потребляют)
- 753. Что такое Coordination Engineering и чем он отличается от Harness Engineering
- 844. Как работает FlashAttention-3 математически
- 897. Как работают agent swarms (рой агентов)
- 800+ вопросов
- 53. Реализовать selective scan (Mamba)