Attention kernel
Attention kernel
Определение
GPU-ядро, реализующее вычисление механизма внимания в LLM; его производительность чувствительна к ветвлениям и warp divergence.
GPU-ядро, реализующее вычисление механизма внимания в LLM; его производительность чувствительна к ветвлениям и warp divergence.