L2 Cache
L2 Cache
Определение
Кэш второго уровня, общий между SM GPU, служащий буфером между SM и глобальной памятью; ключевая оптимизация для хранения KV-кэша при длинных контекстах.
Где встречается
- 301. Как устроена иерархия памяти GPU (Global, L2, Shared, Registers) и как это влияет на LLM инференс
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 708. Что такое MIG (Multi-Instance GPU) и как настроить для разных LLM
- 800+ вопросов