English translation is not available yet. Showing Russian content.
top-k KL divergence loss
top-k KL divergence loss
Определение
Функция потерь для обучения draft модели, минимизирующая расхождение только для top-k наиболее вероятных токенов.
English translation is not available yet. Showing Russian content.
Функция потерь для обучения draft модели, минимизирующая расхождение только для top-k наиболее вероятных токенов.