LLM inference

Определение

Процесс генерации ответа языковой моделью на основе входного промпта; включает токенизацию, прямой проход по сети и декодирование. В production требует управления памятью и параллелизмом.

Где встречается

431. Почему LLM inference memory-bound, а не compute-bound
436. В чем разница между prefill и decode stage в LLM инференсе
706. Что такое TMA (Tensor Memory Accelerator) в H100 и как он ускоряет FlashAttention-3
800+ вопросов
77. Реализовать cost-aware routing
140. Рассчитать break-even point продукта
212. Настроить chunked prefill для long context

LLM inference

LLM inference

Определение

Где встречается

Навигация