Поиск

  • wikisensitive data

    # sensitive data ## Определение Данные, разглашение которых может причинить вред (PII, ключи, документы). LLM могут непреднамеренно воспроизводить такие данные из обучающего…

  • wikilate-arriving data

    # late-arriving data ## Определение Данные, поступающие в пайплайн индексации с задержкой относительно времени события. Требуют специальной обработки (водяные знаки, оконные…

  • wikiSelf-instruct

    …Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] - [[514. Как вы…

  • wikiPyFlink

    # PyFlink ## Определение Python API для Apache Flink, позволяющий обрабатывать потоковые данные в real-time RAG-системах. Используется для инкрементальной индексации…

  • wikireal-time RAG

    …Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] - [[524…

  • wikijoint training

    # joint training ## Определение Метод обучения, при котором в каждом батче смешиваются реальные и синтетические данные для повышения качества и устойчивости…

  • wikiloss of diversity

    # loss of diversity ## Определение Явление, при котором синтетические данные теряют разнообразие: редкие варианты ответов исчезают, что ведёт к деградации модели…

  • wikistreaming data

    …Как вы обрабатываете streaming данные для real-time RAG|524. Как вы обрабатываете streaming данные для real-time RAG]] - [[800…

  • wikiwatermark

    …Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] - [[524…

  • wikireal data

    # real data ## Определение Данные, собранные от пользователей, экспертов или из production-логов, используемые для обучения модели в сочетании с синтетическими…

  • answerКак вы делаете агента «забывающим» (для GDPR / privacy compliance)?

    …Напишите тесты: - Добавьте данные для пользователя A и B. - Вызовите forget для A. - Проверьте, что данные A отсутствуют, а данные

  • wikiApache Flink

    …Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] - [[521…

  • wikiEvol-Instruct

    …Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] - [[514. Как вы…

  • wikiHellaSwag

    …Какие данные нужны для fine-tuning на кастомный стиль общения|28. Какие данные нужны для fine-tuning на кастомный стиль…

  • wikiself-play

    # self-play ## Определение Метод обучения, при котором модель генерирует и оценивает собственные ответы, используя их как обучающие данные (например, в…

  • wikiSynthetic dataset

    …Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] - [[263. Как вы…

  • wikiInstructLab

    …Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…

  • wikiLIMA

    …Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…

  • wikiReverse Instruction

    …Как вы генерируете synthetic данные для instruction tuning|514. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…

  • wikiEmbedding throughput

    …Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…

  • wikiTrain set

    # Train set ## Определение Набор данных, на котором производится обучение или fine-tuning модели; loss на нём используется для обнаружения переобучения…

  • wikiDistilabel

    …Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…

  • wikiBacktranslation

    …Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…

  • wikiSeed pool

    …Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…

  • wikiSession window

    …Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…

  • wikiSPANN

    …Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные|225. Как вы выбираете параметры HNSW (M…

  • wikiTombstone records

    …Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…

  • wikiZero-shot generalization

    …Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…

  • wikiIdempotent writes

    …Как вы обрабатываете streaming данные для real-time RAG|524. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…

  • wikibias amplification

    …Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные

  • wikiAlpaca-LoRA

    …Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…

  • wikiHomogeneous data

    # Homogeneous data ## Определение Данные, где все элементы имеют одинаковую структуру и не содержат естественных границ (абзацев, предложений, разделов). ## Где встречается…

  • wikiMagpie

    …Как вы генерируете synthetic данные для instruction tuning|514. Как вы генерируете synthetic данные для instruction tuning]] - [[800+ вопросов|800…

  • wikiMemory profiling

    …Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные|225. Как вы выбираете параметры HNSW (M…

  • wikiRule-based filtering

    …Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…

  • wikiensemble generation

    …Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные

  • wikireal data mixing

    …Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные

  • wikiSpark Structured Streaming

    …Как вы обрабатываете streaming данные для real-time RAG|524. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…

  • wikiWav2Vec

    …Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные|225. Как вы выбираете параметры HNSW (M…

  • wikidata cleaning

    …Какие данные нужны для fine-tuning на кастомный стиль общения|28. Какие данные нужны для fine-tuning на кастомный стиль…

  • wikiTumbling window

    …Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…

  • wikiData augmentation

    …Какие данные нужны для fine-tuning на кастомный стиль общения|28. Какие данные нужны для fine-tuning на кастомный стиль…

  • wikiBatch RAG

    …Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…

  • wikiMinHash

    …Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] - [[275. Как вы…

  • wikiGoogle T5X

    …Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…

  • wikiWIMBD

    …Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] ## Навигация…

  • wikiExact kNN

    …Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные|225. Как вы выбираете параметры HNSW (M…

  • wikitemplate-based generation

    …Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…

  • wikiRAG orchestrator

    …Как вы обрабатываете streaming данные для real-time RAG|524. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…

  • wikiStyle Consistency Score

    …Какие данные нужны для fine-tuning на кастомный стиль общения|28. Какие данные нужны для fine-tuning на кастомный стиль…