Knowledge Portal

aivaro.ru

  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Тесты
  • Поиск
✈Telegram @AetSeidhe
RUEN中文
…
Оглавление/Вики/Inference scheduler

Inference scheduler

Inference scheduler

Определение

Планировщик запросов к модели, определяет порядок обслуживания, типы: FCFS, Priority, Fairness.

Где встречается

  • 850. Как работают inference schedulers (FCFS, Priority, Fairness)
  • Практика
  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминinference

Ссылки

  • Как работают inference schedulers (FCFS, Priority, Fairness)?

Обратные ссылки (17)

  • Индекс терминов
  • Как вы проектируете dead letter queue для failed LLM инференс запросов?
  • Как проектировать distributed dead letter queue для сообщений?
  • Как работает continuous batching в TGI (Hugging Face Text Generation Inference)?
  • Как работает continuous batching в TGI (Hugging Face Text Generation Inference)?
  • Как работает paged attention в vLLM? Чем это отличается от стандартного attention механизма?
  • Как работает scheduler в vLLM? Какие алгоритмы выбора запросов?
  • Как работает scheduler в vLLM? Какие алгоритмы выбора запросов?
  • Как работает динамическое бэтчирование в TGI vs vLLM?
  • Как работают inference schedulers (FCFS, Priority, Fairness)?
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: LoRA для function calling
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать process reward model (PRM)
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать synthetic benchmark генератор
  • Что такое LoRA для training (инференс уже знаем)?
  • Что такое continuous batching и как оно отличается от static batching? Как это реализовано в vLLM/TGI?
  • Что такое continuous batching? Как реализовано в vLLM?
  • Что такое end-to-end backpressure в LLM пайплайне и как его реализовать?