中文翻译暂不可用,显示俄语原文。
FlashDecoding
FlashDecoding
Определение
Оптимизация для инференса LLM, которая ускоряет чтение/запись KV cache и частично скрывает задержки памяти при генерации одного токена.
Где встречается
- 437. Почему decode stage плохо batchится
- 667. Как работает FlashAttention математически (tiling, recomputation, не материализуя S)