English translation is not available yet. Showing Russian content.
speedup
speedup
Определение
Фактор ускорения инференса, показывающий отношение времени выполнения без оптимизации ко времени с оптимизацией (например, speculative decoding). Типичные значения 1.5-3x.
Где встречается
- 13. Как вы загружаете 1000 документов в RAG максимально эффективно
- 838. Как speculative decoding ускоряет inference (детально)
- Практика
- 800+ вопросов
- 214. Реализовать FP8 инференс на H100
- 220. Настроить wave decoding для коротких ответов
- 259. Реализовать Bloom filter для retrieval