Alignment

Alignment

Определение

Alignment (выравнивание) — это процесс настройки больших языковых моделей (LLM) для соответствия человеческим предпочтениям, ценностям и намерениям. Целью alignment является повышение безопасности, полезности и этичности поведения модели. Это достигается с помощью таких методов, как fine-tuning на предпочтениях (RLHF, DPO) и конституционный AI.

Где встречается

Навигация