alignment tax
alignment tax
Определение
Снижение производительности или качества ответов модели в результате применения методов выравнивания (alignment), таких как RLHF или adversarial fine-tuning.
Где встречается
- 337. Как вы проверяете, что RLHF не сломал базовые способности модели
- 360. Что такое adversarial fine-tuning для защиты от jailbreak