L1 cache

Определение

Быстрая программируемая память внутри SM GPU, используемая для временных данных (например, блоков матриц при attention) и критически влияющая на производительность LLM-инференса.

Где встречается

703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
704. Что такое bank conflicts в shared memory и как их избежать
705. Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100
706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
707. Как работает asynchronous execution на Hopper (copy engine vs compute)
712. Что такое Cooperative Groups в CUDA и как использовать для attention
726. Как предотвращать free-riding в multi-agent системе (агенты не вносят вклад, но потребляют)
753. Что такое Coordination Engineering и чем он отличается от Harness Engineering
844. Как работает FlashAttention-3 математически
897. Как работают agent swarms (рой агентов)
800+ вопросов
53. Реализовать selective scan (Mamba)

L1 cache

L1 cache

Определение

Где встречается

Навигация