Top-k routing
Top-k routing
Определение
Стратегия выбора k наиболее подходящих экспертов для каждого токена, ограничивающая вычислительную нагрузку. Ключевой механизм разреженного инференса MoE.
Где встречается
- 7. Как вы уменьшаете latency RAG-системы (время ответа)
- 283. Что такое selective attention в контексте long context обработки
- 435. Почему MoE (Mixture of Experts) быстрее dense модели при инференсе
- 450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
- 555. Как работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)
- 680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)
- 687. Как вы делаете synthetic eval (генерация тестовых вопросов по документам)
- 849. Что такое expert parallelism для MoE моделей (Mixtral)
- 800+ вопросов
- 57. Настроить recurrent memory для long context