Поиск
- wikipriority-based scheduling
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[Практика|Практика]] - [[800+ вопросов|800…
- wikipriority queuing
…Сравнить inference schedulers (FCFS vs Priority)|219. Сравнить inference schedulers (FCFS vs Priority)]] - [[292. Реализовать distributed task queue для агентов…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить inference schedulers (FCFS vs Priority)
…Модифицировать генераторы для high-priority запросов использовать `[[Вики/Priority\|priority]]=0`, для low – `[[Вики/Priority\|priority]]=1`. 4. Запустить ту…
- wikiPriority ceiling
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[293. Настроить conflict resolution между…
- wikiconsumer priority
# consumer priority ## Определение Механизм, определяющий порядок чтения сообщений из разных топиков (например, retry-топики имеют приоритет перед input), обеспечивающий обработку…
- wikix-max-priority
# x-max-priority ## Определение Параметр очереди сообщений, задающий максимальный приоритет для задач; используется в системах с приоритетной обработкой (например, distributed…
- wikiPriority
# Priority ## Определение Числовое значение или метрика, определяющая срочность обработки запроса. Используется в планировщиках очередей (например, vLLM) для приоритетной обработки. ## Где…
- wikiTask priority
# Task priority ## Определение Механизм присвоения приоритетов задачам в очереди (например, Celery с Redis), позволяющий обрабатывать более важные или срочные запросы…
- wikipriority inversion
# priority inversion ## Определение Ситуация, когда высокоприоритетный агент вынужден ждать, потому что низкоприоритетный агент удерживает необходимый ресурс, что нарушает ожидаемый порядок…
- wikipriority inheritance
# priority inheritance ## Определение Механизм, при котором приоритет низкоприоритетного агента, удерживающего ресурс, временно повышается до уровня ожидающего высокоприоритетного агента, чтобы предотвратить…
- wikiPer priority rate limiting
# Per priority rate limiting ## Определение Ограничение скорости, учитывающее приоритет сообщения: высокоприоритетные проходят без ограничений. ## Где встречается - [[814. Как проектировать rate…
- wikiPod priority
# Pod priority ## Определение Механизм Kubernetes для определения порядка вытеснения подов при нехватке ресурсов; низкоприоритетные поды на spot-инстанциях вытесняются первыми…
- wikiburst
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[219. Сравнить inference schedulers (FCFS…
- wikiInference scheduler
…FCFS, Priority, Fairness. ## Где встречается - [[850. Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority…
- wikiPriority (Weighted) Routing
# Priority (Weighted) Routing ## Определение Стратегия балансировки нагрузки, при которой запросы распределяются между агентами пропорционально их весу (стоимости, качеству), часто с…
- wikiPriority = bid / compute
# Priority = bid / compute ## Определение Правило сортировки заявок на вычислительные ресурсы, при котором приоритет определяется как отношение ставки (bid) к потребляемому…
- wikimulti-tenant
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[Практика|Практика]] - [[800+ вопросов|800…
- wikiAging
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikipreemption
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[Практика|Практика]] - [[800+ вопросов|800…
- wikiBatching scheduler
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiConvoy effect
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiLatency-sensitive
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiPreemption by recomputation
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiboxplot
…Сравнить inference schedulers (FCFS vs Priority)|219. Сравнить inference schedulers (FCFS vs Priority)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- wikiLIFO-эвристика
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiDeficit round robin
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiPreemption by swap
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] ## Навигация - [[00. Индекс терминов|Индекс…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить conflict resolution между агентами
…создаём циклическую зависимость agent1 = Agent(1, priority=5) agent2 = Agent(2, priority=3) await agent1.acquire(resource_A) await agent2…
- wikiCDF
…Сравнить inference schedulers (FCFS vs Priority)|219. Сравнить inference schedulers (FCFS vs Priority)]] - [[224. vLLM кластер на 4 GPU|224…
- wikiDrop rate
…Сравнить inference schedulers (FCFS vs Priority)|219. Сравнить inference schedulers (FCFS vs Priority)]] ## Навигация - [[00. Индекс терминов|Индекс терминов]] - [[00…
- answerКак работают inference schedulers (FCFS, Priority, Fairness)?
…Priority-based scheduling — планирование на основе приоритета Принцип каждому запросу назначается числовой [[Вики/Priority\|приоритет]] (например, 0 — низкий, 10 — высокий…
- answerКак работает scheduler в vLLM? Какие алгоритмы выбора запросов?
…Основные алгоритмы выбора: [[Вики/First-come-first-serve\|FCFS]] (по умолчанию), **Priority-based** ([[Вики/Task priority\|приоритеты]] пользователей) и **[[Вики…
- wikiasyncio.Queue
…Сравнить inference schedulers (FCFS vs Priority)|219. Сравнить inference schedulers (FCFS vs Priority)]] - [[294. Реализовать leader election для агентов|294…
- answerКак вы делаете load shedding при перегрузке LLM сервера?
…def __init__(self, priority: Priority, payload: dict): self.priority = priority self.payload = payload self.timestamp = time.time() class LoadShedder: def…
- wikiStarvation
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[800+ вопросов|800+ вопросов]] ## Навигация…
- answerКак проектировать rate limiting на уровне сообщений?
…Реализация в сообщении добавляется поле `[[Вики/Priority\|priority]]` (high, normal, low). [[Вики/rate limiting\|Rate limiter]] проверяет [[Вики/Priority\|priority…
- answerКак работает scheduler в vLLM? Какие алгоритмы выбора запросов?
…return queue[0] elif self.policy == 'priority': return max(queue, key=lambda s: s.priority) elif self.policy == 'fairness': # Simplified…
- wikiAPI call
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[875. Как делать synthetic eval…
- wikiGPU
…Сравнить inference schedulers (FCFS vs Priority)|219. Сравнить inference schedulers (FCFS vs Priority)]] - [[238. RAG с incremental update|238. RAG…
- wikiindexing
…Сравнить inference schedulers (FCFS vs Priority)|219. Сравнить inference schedulers (FCFS vs Priority)]] - [[299. RAG с мультиязычным поиском (русскийанглийскийкитайский)|299…
- answerКак проектировать delegation с учётом человеческого фактора (усталость, занятость)?
…str priority: Priority created_at: datetime.datetime context: str operator_id: str = None ``` ## 5. Передача контекста (context handover) Когда [[Вики…
- wikifairness scheduling
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[Практика|Практика]] - [[800+ вопросов|800…
- answerКак организовать GPU scheduling для multi-tenant LLM serving?
…PriorityClass values: ["high"] ``` [[Вики/edge\|Связь]] с priority/preemption - [[Вики/Priority\|Priority]] каждой задаче присваивается [[Вики/Priority\|приоритет]] (число). - **[[Вики…
- wikiDeterministic seed
…Сравнить inference schedulers (FCFS vs Priority)|219. Сравнить inference schedulers (FCFS vs Priority)]] - [[220. Настроить wave decoding для коротких ответов…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать distributed task queue для агентов
…10}}, 'medium': {'exchange': 'medium', 'routing_key': 'medium', 'queue_arguments': {'x-max-priority': 5}}, 'low': {'exchange': 'low', 'routing_key': 'low', 'queue…
- answerКак работает динамическое бэтчирование в TGI vs vLLM?
…Как [[Вики/Paged Attention\|vLLM]] смягчает [[Вики/overhead\|overhead]] - [[Вики/priority-based scheduling\|Priority‑based scheduling]] сценарии, где [[Вики/Latency…
- answerКак вы делаете load shedding при перегрузке LLM сервера?
…отключаем re-ranking если нагрузка > 90% if server_state.gpu_util > 90 and priority != Priority.PREMIUM: request.rerank = False # Обработка…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить load shedding при перегрузке в multi-tenant агентной системе
…Содержание ключевого файла `load_shedder.py` (минимум): - класс `LoadShedder` с методами `try_acquire(priority) -> bool` и `release(priority)`. - политика: при…
- wikiSLA
…Как работают inference schedulers (FCFS, Priority, Fairness)|850. Как работают inference schedulers (FCFS, Priority, Fairness)]] - [[863. Как проектировать Airflow DAG…
- wikiMatplotlib
…Сравнить inference schedulers (FCFS vs Priority)|219. Сравнить inference schedulers (FCFS vs Priority)]] - [[224. vLLM кластер на 4 GPU|224…