gold standard
gold standard
Определение
Эталонный набор данных (ground truth) — правильные ответы, релевантные документы или человеческие оценки, используемые для оценки качества модели.
Где встречается
- 71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
- 74. Как вы мониторите дрейф данных (data drift) для RAG
- 94. Как вы проектируете промпты, которые работают с разными моделями
- 132. Как вы калибруете LLM-судью под человеческие оценки
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
- 225. Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные
- 229. Как вы измеряем recall@k для ANN индекса и какой порог acceptable
- 231. Как вы обновляете ANN индекс при добавлении новых векторов без перестроения
- 232. Что такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (16GB)
- 233. Как вы делаете hybrid search (vector + keyword) в production на 10M документов
- 333. Что такое preference data collection и как минимизировать bias в сравнениях
- 341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
- 343. Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)
- 349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
- 379. Как вы оцениваете retrieval с учетом позиции (Position-aware metrics)
- 499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
- 508. Как вы оцениваете faithfulness без ground truth (если нет правильного ответа)
- 516. Как вы управляете качеством разметки (label quality) для DPO датасетов
- 547. Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)
- 582. Как работает agent self-improvement через self-reflection on failures
- 689. Как вы проектируете dynamic benchmark (меняющийся со временем)
- 748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
- 789. Как тестировать multi-turn диалоги агента
- 866. Как генерировать synthetic датасеты для RAG evaluation
- 875. Как делать synthetic eval datasets для agentic workflows
- 895. Как оптимизировать траектории агента (trajectory optimization)
- Практика
- 800+ вопросов
- 20. Настроить sharding для petabyte embeddings
- 26. Реализовать SLO для faithfulness
- 128. Измерить KPD (коэффициент полезного делегирования)
- 154. Протестировать multi-turn диалоги
- 163. Реализовать AB тестирование промптов
- 197. Реализовать graceful degradation при отказе vector DB
- 231. Agentic RAG с саморефлексией
- 245. RAG с semantic chunking
- 266. Сгенерировать synthetic датасет для RAG
- 269. Реализовать hard negative mining для retrieval
- 270. Настроить RLAIF для генерации предпочтений
- 281. Настроить мониторинг дрейфа метрик