中文翻译暂不可用,显示俄语原文。
top-k KL divergence loss
top-k KL divergence loss
Определение
Функция потерь для обучения draft модели, минимизирующая расхождение только для top-k наиболее вероятных токенов.
中文翻译暂不可用,显示俄语原文。
Функция потерь для обучения draft модели, минимизирующая расхождение только для top-k наиболее вероятных токенов.