LLM Eval Toolkit

Определение

Набор из 8 метрик (Diversity, Reliability, Perturbation, Cascade, Consistency, Factual Grounding, Hallucination, Drift) для комплексной оценки агентов. Позволяет выявить проблемы в генерации и поведении.

Где встречается

176. Какие инструменты для агентской эвалюации вы используете
800+ вопросов

LLM Eval Toolkit

LLM Eval Toolkit

Определение

Где встречается

Навигация