Knowledge Portal

aivaro.ru

  • Contents
  • Questions
  • Practice
  • Wiki
  • Tests
  • Search
✈Telegram @AetSeidhe
RUEN中文
…
Contents/Wiki/eval set

English translation is not available yet. Showing Russian content.

eval set

eval set

Определение

Набор синтетических запросов и ожидаемых траекторий, используемый для оценки агента.

Где встречается

  • 271. Реализовать synthetic eval для агента

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминagentsevaluation

Ссылки

  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать synthetic eval для агента

Обратные ссылки (27)

  • Индекс терминов
  • Как вы делаете synthetic data generation для редких классов в датасете?
  • Как вы измеряете drift retrieval-качества в RAG (когда документы меняются)?
  • Как вы обнаруживаете contamination (пересечение synthetic данных с тестовыми)?
  • Как вы обрабатываете запросы, на которые нет ответа в документах?
  • Как вы оцениваете качество после fine-tuning?
  • Как вы предотвращаете catastrophic forgetting при fine-tuning?
  • Как вы проектируете dynamic benchmark (меняющийся со временем)?
  • Как вы тестируете видение модели (vision-language) на пропущенные детали?
  • Как избежать benchmark contamination (когда модель видела тестовые данные)?
  • Как избежать evaluation overfitting (когда модель учится на тесте)?
  • Как изменилась роль инженера с приходом Harness Engineering?
  • Как работает agent self-improvement через self-reflection on failures?
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune LoRA для стиля
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune embedding под домен
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с human-in-the-loop — эскалация человеку при low confidence
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить contextual retrieval (Anthropic стиль)
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить prompt regression suite
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить self-training с псевдо-метками
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Полная платформа для оценки RAG
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать cost per 1M tokens для разных моделей
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать graceful degradation при отказе vector DB
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать latent reasoning (∇-Reasoner)
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать synthetic eval для агента
  • Что такое hybrid search с весами (weighted hybrid) и как оптимизировать веса?
  • Что такое jailbreak taxonomy (полная классификация)?
  • Что такое synthetic eval collapse и как его предотвратить?