Поиск

  • answerЧто такое data version control (DVC) для RAG корпуса документов?

    …Пушим данные в удалённое хранилище dvc push ``` --- ## 4. Процесс: dvc add, git tag, dvc push, dvc checkout, восстановление Рассмотрим полный…

  • answerЧто такое data version control (DVC) для RAG корпуса документов?

    …Что такое data version control (DVC) для RAG корпуса документов? ## Краткий тезис **[[Вики/DVC\|Data Version Control]] ([[Вики/DVC\|DVC

  • wikiDVC pipeline

    …Что такое data version control (DVC) для RAG корпуса документов|522. Что такое data version control (DVC) для RAG корпуса…

  • answerКак организовать data versioning (DVC, LakeFS, Delta Lake)?

    DVC (Data Version Control) [[Вики/DVC\|DVC]] — это инструмент, который позволяет версионировать данные так же, как [[Вики/Git\|Git]] версионирует…

  • wikiLakeFS

    …Что такое data version control (DVC) для RAG корпуса документов|522. Что такое data version control (DVC) для RAG корпуса…

  • wikiGit-based approach

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] ## Навигация - [[00. Индекс…

  • wikiPre-push hook

    # Pre-push hook ## Определение Pre-push hook — Git-хук, запускаемый перед пушем, который проверяет, что данные DVC загружены в удалённое…

  • answerКак вы версионируете агента целиком (prompts, tools, memory schema, orchestration graph)?

    …Используем [[Вики/DVC\|DVC]] ([[Вики/Data versioning\|Data Version Control]]): - Храним схему в `memory/` и отслеживаем через `[[Вики/Data versioning…

  • answerКак вы организуете CI/CD для RAG-пайплайна?

    …Используем **[[Вики/Data versioning\|DVC]] ([[Вики/Data versioning\|Data Version Control]])**: ```bash # Инициализация DVC dvc init dvc remote add -d…

  • wikidata lakehouse

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] ## Навигация - [[00. Индекс…

  • wikiPachyderm

    …Что такое data version control (DVC) для RAG корпуса документов|522. Что такое data version control (DVC) для RAG корпуса…

  • wikiTable format

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] ## Навигация - [[00. Индекс…

  • wikiIceberg

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[800+ вопросов|800…

  • wikiACID транзакции

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[800+ вопросов|800…

  • wikiDVC

    # DVC ## Определение Инструмент для версионирования данных и моделей, использующий Git для метаданных и S3 для хранения больших файлов; применяется для…

  • wikiDelta Lake

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[858. Как проектировать…

  • wikiData versioning

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[880. Как проектировать…

  • wikiObject store with Git semantics

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] ## Навигация - [[00. Индекс…

  • wikiS3 Versioning

    …Что такое data version control (DVC) для RAG корпуса документов|522. Что такое data version control (DVC) для RAG корпуса…

  • wikidata lakes

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[858. Как проектировать…

  • wikiMLOps

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[800+ вопросов|800…

  • wikipoint-in-time

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[857. Как реализовать…

  • wikiSpark

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[858. Как проектировать…

  • wikiGit LFS

    …Что такое data version control (DVC) для RAG корпуса документов|522. Что такое data version control (DVC) для RAG корпуса…

  • wikischema evolution

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[Практика|Практика]] - [[800…

  • wikiкорпус документов

    # корпус документов ## Определение Совокупность текстов, используемых в RAG для извлечения релевантных фрагментов; версионируется инструментами вроде DVC для воспроизводимости. ## Где встречается…

  • wikiParquet

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[Практика|Практика]] - [[800…

  • wikiGit

    …Что такое data version control (DVC) для RAG корпуса документов|522. Что такое data version control (DVC) для RAG корпуса…

  • wikiVersion control

    # Version control ## Определение Управление версиями компонентов RAG-системы (документы, модели, API) для отслеживания изменений и обеспечения совместимости, например через DVC

  • wikiMLflow

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[50. Настроить contextual…

  • wikiCI/CD

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[865. Как проектировать…

  • wikiMRR

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)|856. Как организовать data versioning (DVC, LakeFS, Delta Lake)]] - [[862. Как делать…

  • answerКак проектировать golden dataset для agent evaluation?

    …scikit-learn]] — расчёт Cohen’s kappa, Fleiss’ kappa. - [[Вики/DVC\|DVC]] — версионирование больших датасетов в связке с Git. - LangSmith / Weights…

  • answerКак вы делаете synthetic data generation для редких классов в датасете?

    …Что такое data version control (DVC) для RAG корпуса документов\|267]] | Data augmentation для RAG | | [[269. Как вы обрабатываете streaming…

  • answerКак вы делаете synthetic data generation для редких классов в датасете?

    …Что такое data version control (DVC) для RAG корпуса документов\|522]] | Как вы оцениваете качество синтетических данных? | | [[524. Как вы…

  • answerКак вы измеряете drift retrieval-качества в RAG (когда документы меняются)?

    …Важно [[Вики/eval set\|тестовый набор]] фиксируется версионированием (например, в [[Вики/Git\|Git]] или [[Вики/Data versioning\|DVC]]). При изменении…

  • answerКак вы планируете масштабирование команды вокруг LLM-системы?

    …code review, CI/CD. - Версионирование промптов и моделей Используйте DVC или MLflow для отслеживания experiments. Промпты – хранить в git (YAML…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с cross-encoder reranking

    …или .py скрипт | Отладка и фиксация результатов | | Версионирование | Git + DVC (опционально) | Код и данные | ## 4. Этапы выполнения ### Этап 1: Подготовка…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать A/B тест для RAG

    …score, bert-score, nltk | Вычисление текстовых метрик | | Версионирование | Git + DVC | Управление кодом и данными | | Оркестрация экспериментов | W&B / MLflow Tracking…

  • answerКак вы проектируете промпты, которые работают с разными моделями?

    …Документирование и версионирование промпта Ведите версии промпта ([[Вики/Git\|Git]], [[Вики/Data versioning\|DVC]]), указывая, для каких моделей они протестированы…

  • answerКак вы проектируете feature store для ML фичей, используемых LLM?

    …Что такое data version control (DVC) для RAG корпуса документов\|522]] | Как вы деплоите LLM в production? | --- ## Навигация (Obsidian) - Предыдущий…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune embedding для юридического домена

    …Логирование | `wandb` или `tensorboard` | Отслеживание метрик обучения | | Версионирование | Git + DVC (опционально) | Воспроизводимость | ## 4. Этапы выполнения ### Этап 1: Подготовка данных (2…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить cost efficiency провайдеров LLM (GPT-4 vs Claude vs Llama-3 self-hosted)

    …pandas`, `matplotlib`, `seaborn` | Построение таблиц и графиков | | Версионирование | Git + DVC (опционально) | Версионирование промптов и результатов | ## 4. Этапы выполнения ### Этап 1…

  • answerКак вы делаете incremental ingestion для часто меняющихся документов?

    …Что такое data version control (DVC) для RAG корпуса документов\|267]] - [[Вики/Qdrant\|Индекс]]: [[00. Индекс разборов]]

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Создать benchmark для retrieval

    …llama.cpp`) | Синтез запросов на основе документов | | Версионирование | `git`, `dvc` (опционально) | Версии данных и кода | | Визуализация | `matplotlib`, `seaborn` | Графики распределения…

  • answerКак реализовать online/offline feature consistency для LLM?

    …Как организовать data versioning (DVC, LakeFS, Delta Lake)\|856]] - Следующий: [[858. Как проектировать ETL vs ELT для RAG\|858]] - Индекс…

  • answerКак вы проверяете качество parsing документов (PDF, DOCX) в production?

    …Что такое data version control (DVC) для RAG корпуса документов|267(267_вопрос) | Pipeline предобработки данных для RAG | | [Вопрос [[270…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Fine-tune LoRA для стиля

    …scikit-learn`, ручная аннотация | Метрики качества стиля | | Версионирование | Git + DVC (опционально) | Трекинг данных и весов | ## 4. Этапы выполнения ### Этап 1…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить recurrent memory для long context

    …мониторинг | wandb / просто принты | Отслеживание качества запоминания | | Версионирование | Git + DVC (опционально) | Хранение данных и кода | --- ## 4. Этапы выполнения ### Этап 1…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать conversational repair (disambiguation) в ассистенте

    …scikit-learn, pandas | Подсчёт accuracy, precision, recall | | Версионирование | Git + DVC (data) | Отслеживание датасетов | --- ## 4. Этапы выполнения ### Этап 1: Создание датасета…