Knowledge Portal

aivaro.ru

  • 目录
  • 问题
  • 实践
  • 百科
  • 测试
  • 搜索
✈Telegram @AetSeidhe
RUEN中文
…
目录/百科/eval set

中文翻译暂不可用,显示俄语原文。

eval set

eval set

Определение

Набор синтетических запросов и ожидаемых траекторий, используемый для оценки агента.

Где встречается

  • 271. Реализовать synthetic eval для агента

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминagentsevaluation

Ссылки

  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать synthetic eval для агента

Обратные ссылки (27)

  • Индекс терминов
  • Как вы делаете synthetic data generation для редких классов в датасете?
  • Как вы измеряете drift retrieval-качества в RAG (когда документы меняются)?
  • Как вы обнаруживаете contamination (пересечение synthetic данных с тестовыми)?
  • Как вы обрабатываете запросы, на которые нет ответа в документах?
  • Как вы оцениваете качество после fine-tuning?
  • Как вы предотвращаете catastrophic forgetting при fine-tuning?
  • Как вы проектируете dynamic benchmark (меняющийся со временем)?
  • Как вы тестируете видение модели (vision-language) на пропущенные детали?
  • Как избежать benchmark contamination (когда модель видела тестовые данные)?
  • Как избежать evaluation overfitting (когда модель учится на тесте)?
  • Как изменилась роль инженера с приходом Harness Engineering?
  • Как работает agent self-improvement через self-reflection on failures?
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune LoRA для стиля
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune embedding под домен
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с human-in-the-loop — эскалация человеку при low confidence
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить contextual retrieval (Anthropic стиль)
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить prompt regression suite
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить self-training с псевдо-метками
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Полная платформа для оценки RAG
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать cost per 1M tokens для разных моделей
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать graceful degradation при отказе vector DB
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать latent reasoning (∇-Reasoner)
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать synthetic eval для агента
  • Что такое hybrid search с весами (weighted hybrid) и как оптимизировать веса?
  • Что такое jailbreak taxonomy (полная классификация)?
  • Что такое synthetic eval collapse и как его предотвратить?