中文翻译暂不可用,显示俄语原文。
alignment tax
alignment tax
Определение
Снижение производительности или качества ответов модели в результате применения методов выравнивания (alignment), таких как RLHF или adversarial fine-tuning.
Где встречается
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 360. Что такое adversarial fine-tuning для защиты от jailbreak