gold standard

Определение

Эталонный набор данных (ground truth) — правильные ответы, релевантные документы или человеческие оценки, используемые для оценки качества модели.

Где встречается

71. Как вы тестируете RAG-систему на новых документах без реальных пользователей
74. Как вы мониторите дрейф данных (data drift) для RAG
94. Как вы проектируете промпты, которые работают с разными моделями
132. Как вы калибруете LLM-судью под человеческие оценки
178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
225. Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные
229. Как вы измеряем recall@k для ANN индекса и какой порог acceptable
231. Как вы обновляете ANN индекс при добавлении новых векторов без перестроения
232. Что такое Memory-optimized ANN и какие алгоритмы лучшие для ограниченной RAM (16GB)
233. Как вы делаете hybrid search (vector + keyword) в production на 10M документов
333. Что такое preference data collection и как минимизировать bias в сравнениях
341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
343. Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)
349. Как вы проводите AB тест метрик качества (не бизнес-метрик)
379. Как вы оцениваете retrieval с учетом позиции (Position-aware metrics)
499. Как вы оцениваете alignment модели с человеческими ценностями без gold standard
508. Как вы оцениваете faithfulness без ground truth (если нет правильного ответа)
516. Как вы управляете качеством разметки (label quality) для DPO датасетов
547. Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)
582. Как работает agent self-improvement через self-reflection on failures
689. Как вы проектируете dynamic benchmark (меняющийся со временем)
748. Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)
789. Как тестировать multi-turn диалоги агента
866. Как генерировать synthetic датасеты для RAG evaluation
875. Как делать synthetic eval datasets для agentic workflows
895. Как оптимизировать траектории агента (trajectory optimization)
Практика
800+ вопросов
20. Настроить sharding для petabyte embeddings
26. Реализовать SLO для faithfulness
128. Измерить KPD (коэффициент полезного делегирования)
154. Протестировать multi-turn диалоги
163. Реализовать AB тестирование промптов
197. Реализовать graceful degradation при отказе vector DB
231. Agentic RAG с саморефлексией
245. RAG с semantic chunking
266. Сгенерировать synthetic датасет для RAG
269. Реализовать hard negative mining для retrieval
270. Настроить RLAIF для генерации предпочтений
281. Настроить мониторинг дрейфа метрик

gold standard

gold standard

Определение

Где встречается

Навигация

gold standard

gold standard

Определение

Где встречается

Навигация