中文翻译暂不可用,显示俄语原文。
Up-training
Up-training
Определение
Метод дообучения модели с multi-head attention (MHA), при котором веса преобразуются в grouped-query attention (GQA) через проекции, что позволяет ускорить инференс без значительной потери качества.