Knowledge Portal

aivaro.ru

  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Тесты
  • Поиск
✈Telegram @AetSeidhe
RUEN中文
…
Оглавление/Вики/Wikipedia

Wikipedia

Wikipedia

Определение

Онлайн-энциклопедия, применяемая как источник контекста и эталонных ответов (ground truth) для тестовых запросов при оценке RAG-систем.

Где встречается

  • 163. Реализовать AB тестирование промптов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминdataevaluationretrieval

Ссылки

  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать A/B тестирование промптов

Обратные ссылки (27)

  • Индекс терминов
  • Как вы fine-tune embedding модель под свой домен (а не используете готовую)?
  • Как вы анализируете embedding geometry для отладки retrieval качества?
  • Как вы делаете backfill эмбеддингов при смене embedding модели?
  • Как вы делаете cache invalidation для semantic cache при обновлении знаний?
  • Как вы делаете incremental ingestion для часто меняющихся документов?
  • Как вы детектируете data contamination в evaluation датасетах?
  • Как вы ограничиваете бесконечный цикл агента?
  • Как вы проектируете dynamic benchmark (меняющийся со временем)?
  • Как вы проектируете feature engineering для контекста RAG (кроме текста)?
  • Как измерять faithfulness для long-form ответов (1000+ токенов)?
  • Как работает RAPTOR (иерархическое суммирование для длинного контекста)?
  • Как работает Toolformer (обучение агента использованию инструментов)?
  • Как работает agent self-improvement через self-reflection on failures?
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune embedding для юридического домена
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с DSPy оптимизацией
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с гибридным поиском (Qdrant + BM25 + RRF)
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с оценкой faithfulness и дашбордом Grafana
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RAGAS evaluation pipeline с автоматическим запуском при каждом PR
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить contextual retrieval (Anthropic стиль)
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить cost tracking для агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить token budget для агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать A/B тестирование промптов
  • Что такое Hypothetical Document Embeddings (HyDE) и зачем?
  • Что такое curriculum learning для LLM и как его реализовать?
  • Что такое differential privacy для LLM и как она работает?
  • Что такое «аутсорсинг» задачи другому LLM (с другим API, другой ценой)?