English translation is not available yet. Showing Russian content.
auxiliary loss
auxiliary loss
Определение
Вспомогательная функция потерь, штрафующая роутер за неравномерное распределение токенов по экспертам в архитектуре Mixture of Experts, предотвращая коллапс экспертов.
Где встречается
- 290. Что такое Chain-of-Thought без токенов (latent CoT) и как это реализовано
- 680. Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)
- 849. Что такое expert parallelism для MoE моделей (Mixtral)