inference

Определение

Скорость генерации ответа; fine-tuning обычно быстрее, RAG медленнее из-за retrieval.