Alignment

Определение

Alignment (выравнивание) — это процесс настройки больших языковых моделей (LLM) для соответствия человеческим предпочтениям, ценностям и намерениям. Целью alignment является повышение безопасности, полезности и этичности поведения модели. Это достигается с помощью таких методов, как fine-tuning на предпочтениях (RLHF, DPO) и конституционный AI.

Где встречается

994. Что такое Constitutional AI? Как использовать правила (constitution) для генерации preference данных без людей?

Alignment

Alignment

Определение

Где встречается

Навигация