Perplexity vs Human evaluation
Perplexity vs Human evaluation
Определение
Сравнение автоматической метрики качества языковой модели (perplexity) и оценки, полученной от людей-экспертов. Perplexity измеряет, насколько модель «удивлена» текстом, но низкое значение не гарантирует, что текст будет оцениваться человеком как связный, осмысленный и естественный. Человеческая оценка учитывает семантику, стиль, фактологию и другие аспекты, которые не улавливаются статистическими метриками.