L1 cache

L1 cache

Определение

Быстрая программируемая память внутри SM GPU, используемая для временных данных (например, блоков матриц при attention) и критически влияющая на производительность LLM-инференса.

Где встречается

Навигация