Поиск
- wikifeedback embeddings
# feedback embeddings ## Определение Эмбеддинги пользовательских фидбеков для организации continuous learning агента. ## Где встречается - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
- wikirandom embeddings
# random embeddings ## Определение Эмбеддинги, сгенерированные случайным образом, которые могут выступать в качестве выбросов в векторной базе данных и вызывать деградацию…
- wikinumerical embeddings
# numerical embeddings ## Определение Численные эмбеддинги — представление чисел в виде векторов, позволяющее LLM обрабатывать их без токенизации. ## Где встречается - [[181. В…
- wikiDense Embedding
# Dense Embedding ## Определение Плотные эмбеддинги (dense embeddings) — векторные представления текста, получаемые нейросетевыми моделями (BERT, E5), где все элементы вектора плотные…
- answerКак работает эмбеддинг слой и почему его размер (embedding dimension) важен?
…нет, из-за переобучения и вычислительных затрат. - «Эмбеддинги можно не обучать»: в современных LLM они обучаются с нуля, предобученные эмбеддинги…
- wikiHyDE
# HyDE ## Определение Техника улучшения retrieval в RAG: LLM генерирует гипотетический ответ на запрос, затем его эмбеддинг используется для поиска документов…
- wikiSparse Embedding
# Sparse Embedding ## Определение Разреженные эмбеддинги (например, SPLADE) — это представления, где большинство компонентов равны нулю. Они интерпретируемы, требуют инвертированного индекса и…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами
…3. [[Вики/Нормализуйте все эмбеддинги\|Нормализуйте все эмбеддинги]] (L2) для косинусного поиска. 4. [[Вики/Сохраните эмбеддинги\|Сохраните эмбеддинги]] в `embeddings…
- wikimalicious embeddings
# malicious embeddings ## Определение Векторные представления, специально созданные злоумышленником для нарушения работы ANN-поиска в векторной базе данных. ## Где встречается - [[800…
- answerКак вы оптимизируете embedding генерацию для большого количества документов?
…Для миллионов документов наивный подход — генерировать [[Вики/embedding\|эмбеддинги]] по одному — может занять дни. Оптимизация сводится к четырём ключевым приёмам…
- wikimemory embeddings
# memory embeddings ## Определение Векторные представления содержимого памяти агента, используемые для поиска и обнаружения аномалий. Позволяют детектировать отклонения в запомненной информации…
- wikisentence embeddings
# sentence embeddings ## Определение Векторные представления целых предложений, позволяющие измерять семантическую близость между ними. Используются в RAG для кластеризации (semantic chunking…
- wikisemantic comparison
# semantic comparison ## Определение сравнение шагов через эмбеддинги для допуска небольших вариаций в траекториях ## Где встречается - [[146. Реализовать golden dataset для…
- wikistep embeddings
# step embeddings ## Определение Семантическое представление каждого шага траектории для сравнения с допуском вариаций. ## Где встречается - [[146. Реализовать golden dataset для…
- wikiEmbedding Models
# Embedding Models ## Определение Модели, преобразующие данные (текст, изображения) в плотные векторные представления (эмбеддинги), используемые для поиска по сходству. Устойчивы к…
- wikiin-flight embeddings
# in-flight embeddings ## Определение Вычисление векторных представлений (эмбеддингов) в процессе потоковой обработки данных для использования в real-time RAG. ## Где…
- wikiPatch Embedding
# Patch Embedding ## Определение Линейный слой, проецирующий патчи изображения в эмбеддинги для подачи в трансформер. Используется в vision encoder моделей типа…
- wikigraph embedding
# graph embedding ## Определение Способ представления структуры графа в виде векторного эмбеддинга, позволяющий искать не только по тексту узлов, но и…
- wikiCohere Embed
# Cohere Embed ## Определение API-эмбеддинги от Cohere, альтернатива OpenAI с поточной оплатой. ## Где встречается - [[192. Как вы оцениваете качество language…
- wikiPooling
# Pooling ## Определение Компонент модели sentence-transformers, который агрегирует эмбеддинги токенов в единый вектор предложения для задач поиска или классификации. ## Где…
- answerКак работает vision encoder в GPT-4V / LLaVA?
…выходные [[Вики/embedding\|эмбеддинги]] должны быть той же размерности, что и [[Вики/embedding\|эмбеддинги]] текстовых токенов. Без vision encoder LLM…
- wikiProjection
# Projection ## Определение Линейный слой, преобразующий эмбеддинги из одного пространства (например, vision encoder) в пространство эмбеддингов LLM. ## Где встречается - [[549. Как…
- answerКак работает ∇-Reasoner (градиентный спуск в пространстве токенов на этапе теста)?
…forward через GPT-2, получить reward от reward model, backward, обновить эмбеддинги. - Финализируйте: замените soft-эмбеддинги на argmax. 5. Сравните…
- wikiQuery-document alignment
# Query-document alignment ## Определение Метрика, оценивающая, насколько эмбеддинги запросов попадают в кластеры релевантных документов; низкое значение указывает на mismatch энкодеров…
- wikicross-encoder vs bi-encoder
…cross-encoder обрабатывает пару запрос-документ совместно, bi-encoder вычисляет раздельные эмбеддинги. Cross-encoder точнее, но медленнее. ## Где встречается - [[88…
- answerКак вы делаете RAG для изображений (image retrieval without text)?
…Решение — использовать [[Вики/multimodal embedding\|мультимодальные эмбеддинги]], которые кодируют и изображения, и текст в общее пространство, позволяя сравнивать их напрямую…
- wikiMulti-vector index
# Multi-vector index ## Определение Архитектура индексации, где эмбеддинги разных модальностей (аудио, видео) хранятся в отдельных индексах с меткой модальности. Позволяет…
- wikiCursor
# Cursor ## Определение IDE с интегрированным AI-ассистентом, способная анализировать контекст всего репозитория через эмбеддинги и граф зависимостей. ## Где встречается - [[647…
- wikiTied embeddings
# Tied embeddings ## Определение Техника, при которой веса слоя эмбеддингов разделяются с весами выходного линейного слоя, что уменьшает общее количество параметров…
- answerКак работает CLIP и как training contrastive loss выравнивает текст и изображения?
…В результате эмбеддинги текста и изображений оказываются выровнены в общем пространстве, что позволяет выполнять zero-shot классификацию и retrieval|мультимодальный…
- wikiВерсионирование эмбеддингов
…усложняет архитектуру, но позволяет точно фильтровать старые и новые эмбеддинги. ## Где встречается - [[264. Как вы делаете backfill эмбеддингов при смене…
- wikiRepoCoder
# RepoCoder ## Определение Инструмент Microsoft для retrieval-augmented code generation, строящий граф репозитория и извлекающий релевантные фрагменты через BM25 и эмбеддинги…
- wikiLearned positional embeddings
# Learned positional embeddings ## Определение Обучаемая матрица, которая добавляется к эмбеддингам токенов для кодирования их позиции в последовательности; используется в архитектурах…
- wikiOpenCLIP
# OpenCLIP ## Определение Открытая реализация модели CLIP, позволяющая тренировать и использовать мультимодальные эмбеддинги для поиска изображений по тексту. ## Где встречается - [[537…
- wikiEmbedding Pipeline
# Embedding Pipeline ## Определение Пайплайн, преобразующий документы в векторные представления (эмбеддинги) для последующего поиска. В production требует обработки с гарантией exactly…
- wikiбатчинг embeddings
# батчинг embeddings ## Определение Техника группировки нескольких документов (чанков) в один запрос к модели эмбеддингов для увеличения пропускной способности и снижения…
- wikicode embeddings
# code embeddings ## Определение Векторные представления узлов графа кода (функций, классов), полученные через модели вроде CodeBERT или GraphCodeBERT. Используются для семантического…
- wikiGloVe
# GloVe ## Определение Статические эмбеддинги слов, получаемые из глобальной матрицы совместной встречаемости. Применяются, например, в TextFooler для подбора синонимов при тестировании…
- answerКак проектировать ETL vs ELT для RAG?
…Инструменты - Docker Compose (локальное окружение) - MinIO (S3-совместимое хранилище) - Airflow (оркестрация) - LangChain + PyMuPDF (парсинг и чанкинг) - FastEmbed (эмбеддинги на CPU…
- answerКак вы отслеживаете data drift для распределения запросов к RAG?
…Мониторинг распределения эмбеддингов (основной метод) Основной подход – [[Вики/embedding\|векторизация]] запросов в [[Вики/embedding\|эмбеддинги]] фиксированной размерности (обычно той же…
- wikiGPTCache
# GPTCache ## Определение Библиотека для семантического кэширования ответов LLM, сравнивающая эмбеддинги запросов для возврата ранее сгенерированного ответа. Интегрируется с LangChain и…
- answerКак вы мониторите дрейф данных (data drift) для RAG?
…Загружаем эталонные эмбеддинги (например, из parquet) ref_embeddings = pd.read_parquet('reference_embeddings.parquet') # 2. Получаем новые эмбеддинги запросов за…
- answerЧто такое ∇-Reasoner (nabla-reasoner) и как он использует градиентный спуск на этапе теста?
…вместо того чтобы генерировать цепочку рассуждений (chain-of-thought) путём авторегрессивного предсказания следующего токена, модель итеративно улучшает скрытые состояния (эмбеддинги…
- answerКак работает Zero-shot classification для изображений (CLIP vs другие методы)?
…для каждой пары (изображение, текст) в батче [[Вики/model\|модель]] учится делать [[Вики/embedding\|эмбеддинги]] изображения и текста близкими, а…
- wikiOpenAI Embeddings
# OpenAI Embeddings ## Определение Векторные представления текста от OpenAI, используемые для поиска релевантных документов в RAG-системах и создания эмбеддингов чанков…
- wikiImage-Text Contrastive
# Image-Text Contrastive ## Определение Контрастивное обучение, сближающее эмбеддинги изображения и соответствующего текста в общем пространстве. Используется как задача обучения Q…
- wikiPre-fill
…LLM обрабатывает все эмбеддинги из памяти за один проход, что ускоряет последующую генерацию. ## Где встречается - [[281. Что такое sliding window…
- wikimultimodal retrieval
…Использует выровненные эмбеддинги, такие как CLIP. ## Где встречается - [[117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2…
- wikimultimodal embedding
# multimodal embedding ## Определение Векторное представление, объединяющее информацию из разных модальностей (текст, изображения) в едином пространстве. Используется для поиска изображений по…
- wikiuser_embedding
# user_embedding ## Определение Векторное представление пользователя, получаемое из Sentence-BERT или LLM-эмбеддера; обновляется после диалога и используется для персонализации…