Prompt compression
Prompt compression
Определение
Техники уменьшения количества входных токенов промпта (например, LLMLingua, Selective Context) для снижения затрат и уменьшения задержки.
Где встречается
- 70. Как вы снижаете стоимость LLM в production на 50%+
- 139. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 219. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать
- 442. Что такое prefix caching и когда он эффективен
- 504. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 631. Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)
- 697. Как вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)
- 748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)