中文翻译暂不可用,显示俄语原文。
LLM Eval Toolkit
LLM Eval Toolkit
Определение
Набор из 8 метрик (Diversity, Reliability, Perturbation, Cascade, Consistency, Factual Grounding, Hallucination, Drift) для комплексной оценки агентов. Позволяет выявить проблемы в генерации и поведении.