Top-k routing

Определение

Стратегия выбора k наиболее подходящих экспертов для каждого токена, ограничивающая вычислительную нагрузку. Ключевой механизм разреженного инференса MoE.

Где встречается

7. Как вы уменьшаете latency RAG-системы (время ответа)
283. Что такое selective attention в контексте long context обработки
435. Почему MoE (Mixture of Experts) быстрее dense модели при инференсе
450. Что такое Wave Decoding и чем отличается от стандартного авторегрессивного
555. Как работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)
680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)
687. Как вы делаете synthetic eval (генерация тестовых вопросов по документам)
849. Что такое expert parallelism для MoE моделей (Mixtral)
800+ вопросов
57. Настроить recurrent memory для long context

Top-k routing

Top-k routing

Определение

Где встречается

Навигация