llama.cpp

Определение

Фреймворк для локального запуска LLM на CPU/GPU с квантованием, использует формат GGUF. Лёгкий инференс с batch processing.