Load balancer
Load balancer
Определение
Компонент, распределяющий входящие запросы между инференс-серверами или средами. Часто использует consistent hashing для сохранения аффинности сессий.
Где встречается
- 214. Как вы реализуете streaming в production с учетом network limitations
- 243. Как вы делаете blue-green deployment для RAG системы с zero downtime
- 251. Как вы деплоите LLM на spot instances в облаке
- 410. Как вы делаете blue-green deployment для RAG системы с zero downtime
- 418. Как вы деплоите LLM на spot instances в облаке
- 424. Что такое pipeline parallelism и проблема pipeline bubbles
- 435. Почему MoE (Mixture of Experts) быстрее dense модели при инференсе
- 784. Как строить финансовую модель LLM-продукта для бизнеса
- 825. Что такое autoscaling inference и как его настроить
- 849. Что такое expert parallelism для MoE моделей (Mixtral)
- Практика
- 800+ вопросов
- 116. Реализовать иерархическое делегирование
- 189. Реализовать compression сообщений
- 195. Реализовать blue-green deployment для RAG