Поиск
- wikisensitive data
# sensitive data ## Определение Данные, разглашение которых может причинить вред (PII, ключи, документы). LLM могут непреднамеренно воспроизводить такие данные из обучающего…
- wikilate-arriving data
# late-arriving data ## Определение Данные, поступающие в пайплайн индексации с задержкой относительно времени события. Требуют специальной обработки (водяные знаки, оконные…
- wikiSelf-instruct
…Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] - [[514. Как вы…
- wikiPyFlink
# PyFlink ## Определение Python API для Apache Flink, позволяющий обрабатывать потоковые данные в real-time RAG-системах. Используется для инкрементальной индексации…
- wikireal-time RAG
…Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] - [[524…
- wikijoint training
# joint training ## Определение Метод обучения, при котором в каждом батче смешиваются реальные и синтетические данные для повышения качества и устойчивости…
- wikiloss of diversity
# loss of diversity ## Определение Явление, при котором синтетические данные теряют разнообразие: редкие варианты ответов исчезают, что ведёт к деградации модели…
- wikistreaming data
…Как вы обрабатываете streaming данные для real-time RAG|524. Как вы обрабатываете streaming данные для real-time RAG]] - [[800…
- wikiwatermark
…Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] - [[524…
- wikireal data
# real data ## Определение Данные, собранные от пользователей, экспертов или из production-логов, используемые для обучения модели в сочетании с синтетическими…
- answerКак вы делаете агента «забывающим» (для GDPR / privacy compliance)?
…Напишите тесты: - Добавьте данные для пользователя A и B. - Вызовите forget для A. - Проверьте, что данные A отсутствуют, а данные…
- wikiApache Flink
…Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] - [[521…
- wikiEvol-Instruct
…Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] - [[514. Как вы…
- wikiHellaSwag
…Какие данные нужны для fine-tuning на кастомный стиль общения|28. Какие данные нужны для fine-tuning на кастомный стиль…
- wikiself-play
# self-play ## Определение Метод обучения, при котором модель генерирует и оценивает собственные ответы, используя их как обучающие данные (например, в…
- wikiSynthetic dataset
…Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] - [[263. Как вы…
- wikiInstructLab
…Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…
- wikiLIMA
…Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…
- wikiReverse Instruction
…Как вы генерируете synthetic данные для instruction tuning|514. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…
- wikiEmbedding throughput
…Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…
- wikiTrain set
# Train set ## Определение Набор данных, на котором производится обучение или fine-tuning модели; loss на нём используется для обнаружения переобучения…
- wikiDistilabel
…Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…
- wikiBacktranslation
…Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…
- wikiSeed pool
…Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…
- wikiSession window
…Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…
- wikiSPANN
…Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные|225. Как вы выбираете параметры HNSW (M…
- wikiTombstone records
…Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…
- wikiZero-shot generalization
…Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…
- wikiIdempotent writes
…Как вы обрабатываете streaming данные для real-time RAG|524. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…
- wikibias amplification
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- wikiAlpaca-LoRA
…Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…
- wikiHomogeneous data
# Homogeneous data ## Определение Данные, где все элементы имеют одинаковую структуру и не содержат естественных границ (абзацев, предложений, разделов). ## Где встречается…
- wikiMagpie
…Как вы генерируете synthetic данные для instruction tuning|514. Как вы генерируете synthetic данные для instruction tuning]] - [[800+ вопросов|800…
- wikiMemory profiling
…Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные|225. Как вы выбираете параметры HNSW (M…
- wikiRule-based filtering
…Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] ## Навигация - [[00. Индекс…
- wikiensemble generation
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- wikireal data mixing
…Что такое synthetic data collapse (когда синтетические данные деградируют со временем)|688. Что такое synthetic data collapse (когда синтетические данные…
- wikiSpark Structured Streaming
…Как вы обрабатываете streaming данные для real-time RAG|524. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…
- wikiWav2Vec
…Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные|225. Как вы выбираете параметры HNSW (M…
- wikidata cleaning
…Какие данные нужны для fine-tuning на кастомный стиль общения|28. Какие данные нужны для fine-tuning на кастомный стиль…
- wikiTumbling window
…Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…
- wikiData augmentation
…Какие данные нужны для fine-tuning на кастомный стиль общения|28. Какие данные нужны для fine-tuning на кастомный стиль…
- wikiBatch RAG
…Как вы обрабатываете streaming данные для real-time RAG|269. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…
- wikiMinHash
…Как вы генерируете synthetic данные для instruction tuning|259. Как вы генерируете synthetic данные для instruction tuning]] - [[275. Как вы…
- wikiGoogle T5X
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikiWIMBD
…Как избежать benchmark contamination (когда модель видела тестовые данные)|869. Как избежать benchmark contamination (когда модель видела тестовые данные)]] ## Навигация…
- wikiExact kNN
…Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные|225. Как вы выбираете параметры HNSW (M…
- wikitemplate-based generation
…Как вы комбинируете реальные и синтетические данные для максимального качества|700. Как вы комбинируете реальные и синтетические данные для максимального…
- wikiRAG orchestrator
…Как вы обрабатываете streaming данные для real-time RAG|524. Как вы обрабатываете streaming данные для real-time RAG]] ## Навигация…
- wikiStyle Consistency Score
…Какие данные нужны для fine-tuning на кастомный стиль общения|28. Какие данные нужны для fine-tuning на кастомный стиль…