English translation is not available yet. Showing Russian content.
compute-bound
compute-bound
Определение
Характеристика операции, где узким местом является вычислительная мощность, а не пропускная способность памяти; типична для prefill stage при batch > 32 на H100.
Где встречается
- 322. Что такое operator fusion в компиляторах и какие паттерны fusion существуют
- 431. Почему LLM inference memory-bound, а не compute-bound
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 437. Почему decode stage плохо batchится
- 444. Почему 4-bit inference иногда медленнее 8-bit
- 474. Как работает FlashAttention для training (не только inference)
- 703. Как работает L1L2 cache hierarchy в A100H100 и как ее использовать для LLM
- 710. Бенчмаркинг LLM на AMD MI300X vs H100 различия в архитектуре и оптимизации
- 800+ вопросов
- 54. Сравнить Hyena vs FlashAttention на 128k