HELMET

Определение

Бенчмарк для оценки LLM, фокусирующийся на цепочке рассуждений (CoT) и faithfulness в длинных контекстах.