English translation is not available yet. Showing Russian content.
llama.cpp
llama.cpp
Определение
Фреймворк для локального запуска LLM на CPU/GPU с квантованием, использует формат GGUF. Лёгкий инференс с batch processing.
Где встречается
- 70. Как вы снижаете стоимость LLM в production на 50%+
- 72. OpenAI vs Антропик vs Groq vs Self-hosted — что выбираете
- 75. Что такое structured output constrained decoding и зачем это нужно
- 87. Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов
- 213. Что такое Guided Decoding и как оно связано с JSON schema
- 218. Как работает continuous batching в TGI (Hugging Face Text Generation Inference)
- 364. Как вы строите real-time voice agent с latency 500ms
- 443. GGUF vs GPTQ vs AWQ сравнение форматов квантизации для инференса.
- 544. Как вы строите real-time voice agent с latency 500ms
- 562. Как работает whisper.cpp для локального ASR с low latency
- 648. Что такое streaming LLM для бесконечного контекста (техника rollback)
- 666. Что такое FP16, BF16, FP8, INT8 quantization Когда что использовать
- 847. Как сравнивать quantization методы (GPTQ, AWQ, GGUF, bitsandbytes)
- 800+ вопросов
- 85. Спроектировать escalation system
- 102. Настроить Guardrails на NeMo
- 218. Настроить prompt caching (Anthropic style)
- 296. RAG с векторной БД на CPU (ChromaQdrant)