中文翻译暂不可用,显示俄语原文。
LLM inference
LLM inference
Определение
Процесс генерации ответа языковой моделью на основе входного промпта; включает токенизацию, прямой проход по сети и декодирование. В production требует управления памятью и параллелизмом.
Где встречается
- 431. Почему LLM inference memory-bound, а не compute-bound
- 436. В чем разница между prefill и decode stage в LLM инференсе
- 706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
- 800+ вопросов
- 77. Реализовать cost-aware routing
- 140. Рассчитать break-even point продукта
- 212. Настроить chunked prefill для long context