Knowledge Portal

aivaro.ru

  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Тесты
  • Поиск
✈Telegram @AetSeidhe
RUEN中文
…
Оглавление/Вики/Shared prefix

Shared prefix

Shared prefix

Определение

Повторяющаяся начальная часть запроса, для которой сохраняется кэш с целью ускорения обработки.

Где встречается

  • 454. Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминcache

Ссылки

  • Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать?

Обратные ссылки (8)

  • Индекс терминов
  • Как работает PagedAttention в vLLM внутренне?
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить prompt caching (Anthropic style)
  • Что такое KV cache reuse в multi-turn диалогах и как его реализовать?
  • Что такое continuous batching и как оно отличается от static batching? Как это реализовано в vLLM/TGI?
  • Что такое prefix caching и когда он эффективен?
  • Что такое prefix caching и когда он эффективен?
  • Что такое prompt caching у провайдеров (Anthropic, Google) и как его использовать?