Поиск

answerЧто такое gradient clipping и зачем он нужен при обучении LLM?
…norm clipping и value clipping | Метод | Описание | Типичный порог | Когда использовать | |-------|----------|----------------|-------------------| | [[Вики/clipping\|Norm clipping]] (по норме) | Масштабирует весь вектор…
wikiopen_clip
# open_clip ## Определение Открытая реализация модели CLIP, доступная через библиотеку open_clip, поддерживает различные варианты моделей для мультимодального поиска. ## Где…
answerКак работает CLIP (Contrastive Language-Image Pre-training) внутренне?
…Как работает CLIP (Contrastive Language-Image Pre-training) внутренне? ## Краткий тезис [[Вики/CLIP\|CLIP]] — это [[Вики/VLM\|мультимодальная модель]], которая…
wikiCLIP score
# CLIP score ## Определение Метрика, оценивающая семантическую близость изображения и текста с помощью CLIP. ## Где встречается - [[563. Как вы делаете image…
wikiCLIP
…Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…
wikiclipping
# clipping ## Определение Техника ограничения нормы градиента или отношения вероятностей политик для предотвращения взрыва градиентов и стабилизации обучения (например, gradient clipping…
wikiALIGN
# ALIGN ## Определение Мультимодальная модель от Google, обученная на 1.8B пар изображение-текст с асимметричным contrastive loss, альтернатива CLIP. ## Где…
answerКак работает Zero-shot classification для изображений (CLIP vs другие методы)?
…Как работает CLIP [[Вики/CLIP\|CLIP]] — это [[Вики/model\|модель]], обученная на 400 миллионах пар (изображение, текст) из интернета. Архитектура…
wikiClip ε
# Clip ε ## Определение Гиперпараметр PPO (обычно 0.2), ограничивающий отношение вероятностей новой и старой политики для стабильности обучения. ## Где встречается…
wikimultimodal retrieval
…Использует выровненные эмбеддинги, такие как CLIP. ## Где встречается - [[117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2…
wikiGhost Clipping
# Ghost Clipping ## Определение Техника оптимизации per-sample clipping в DP-SGD, снижающая потребление памяти за счёт вычисления градиентов только для…
wikiLogit Clipping
# Logit Clipping ## Определение ограничение максимального значения логитов перед softmax ## Где встречается - [[485. Как вы дебажите training instability (loss spikes, divergence…
wikiCLIP-based NSFW detector
# CLIP-based NSFW detector ## Определение Классификатор на основе CLIP для обнаружения контента, не предназначенного для работы (NSFW). ## Где встречается - [[548…
wikiSigLIP
# SigLIP ## Определение SigLIP — улучшенная версия CLIP, использующая sigmoid loss вместо contrastive loss для обучения визуальных эмбеддингов, что позволяет работать с…
answerКак вы делаете RAG для изображений (image retrieval without text)?
…Модель CLIP: основа современного image retrieval **[[Вики/CLIP\|CLIP]] ([[Вики/CLIP\|Contrastive Language-Image Pre-training]])** — [[Вики/model\|модель]] от…
answerЧто такое SigLIP и чем отличается от CLIP?
…Поэтому [[Вики/CLIP\|CLIP]] обучают с огромными батчами (32k–64k), что требует много памяти. --- ## 2. Проблемы CLIP - Зависимость от размера…
wikigradient clipping
# gradient clipping ## Определение Техника ограничения нормы градиентов при обучении для предотвращения взрыва градиентов, типичное значение — 1.0. ## Где встречается - [[800…
wikisigmoid loss
…Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…
answerКакие embedding-модели для мультимодального поиска вы используете? CLIP, BLIP-2, ImageBind?
…Интеграция в пайплайн мультимодального RAG Пример для CLIP (python): ```python import torch from transformers import CLIPProcessor, CLIPModel model = CLIPModel.from…
wikiResNet
…Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…
answerКак вы делаете image captioning для RAG (извлечение описания изображения)?
…Комбинация с CLIP embedding: dual-encoder подход **[[Вики/CLIP\|CLIP]] ([[Вики/CLIP\|Contrastive Language-Image Pre-training]])** — [[Вики/model\|модель…
answerЧто такое vanishing / exploding gradients в трансформерах и как их предотвратить?
…Gradient Clipping [[Вики/gradient clipping\|Gradient clipping]] — ограничение нормы градиента (или отдельных значений) перед применением оптимизатора. Основные методы - [[Вики/clipping…
answerКак вы индексируете видео-контент в RAG-системе?
…Индексируем отдельно от аудио-эмбеддингов. ```python import clip model, preprocess = clip.load("ViT-B/32") image = preprocess(Image.open("frame…
answerКак работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?
…текст и изображения имеют разную статистику. [[Вики/CLIP\|CLIP]] обучен на парах, но не идеально выравнивает все возможные [[Вики/Query…
wikiOpenCLIP
# OpenCLIP ## Определение Открытая реализация модели CLIP, позволяющая тренировать и использовать мультимодальные эмбеддинги для поиска изображений по тексту. ## Где встречается - [[537…
wikiBag-of-words bias
# Bag-of-words bias ## Определение Ограничение модели CLIP, при котором она не учитывает порядок слов в предложении, что может приводить…
answerКак работает CLIP и как training contrastive loss выравнивает текст и изображения?
…Что такое CLIP и зачем он нужен [[Вики/CLIP\|CLIP]] — [[Вики/model\|модель]] от [[Вики/LLM endpoint\|OpenAI]] (2021), которая…
wikiZero-shot
…Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…
wikicontrastive loss
# contrastive loss ## Определение Функция потерь для обучения эмбеддингов, максимизирующая сходство правильных пар и минимизирующая сходство неправильных; используется в CLIP и…
wikiInfoNCE
# InfoNCE ## Определение InfoNCE (Noise Contrastive Estimation loss) — функция потерь контрастивного обучения, используемая для обучения эмбеддингов, например в CLIP. Она максимизирует…
wikiEfficientNet
# EfficientNet ## Определение Легкая архитектура свёрточной нейросети, используемая как энкодер изображений в моделях типа CLIP и для real-time video understanding…
wikirecall@1
…Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…
answerКак вы делаете image retrieval по тексту с высокой точностью?
…CLIP (Contrastive Language–Image Pre-training) [[Вики/CLIP\|CLIP]] — [[Вики/model\|модель]] от [[Вики/LLM endpoint\|OpenAI]], обученная на 400…
wikiViT
…Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…
answerЧто такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?
…Ключевой элемент — [[Вики/clipping\|clipping]] ([[Вики/selective pruning\|отсечение]]) отношения вероятностей: $$ r_t(\theta) = \frac{\pi_\theta(a_t|s…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами
…Создание мультимодальных эмбеддингов (2 часа) [[Вики/Действия\|Действия]] 1. [[Вики/Загрузите CLIP\|Загрузите CLIP]] и sentence-transformer: ```python from transformers…
wikiBLIP
…Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…
wikitimm
…Что такое SigLIP и чем отличается от CLIP|537. Что такое SigLIP и чем отличается от CLIP]] ## Навигация - [[00. Индекс…
wikiLiT
…Что такое SigLIP и чем отличается от CLIP|537. Что такое SigLIP и чем отличается от CLIP]] ## Навигация - [[00. Индекс…
wikiUniformity
…Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…
wikiFLAVA
…Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind|117. Какие embedding-модели для мультимодального поиска вы…
answerКак вы индексируете видео-контент в RAG-системе?
…Визуальные эмбеддинги (CLIP) [[Вики/ключевой кадр\|Ключевой кадр]] подаётся в мультимодальную [[Вики/model\|модель]] [[Вики/CLIP\|CLIP]] ([[Вики/CLIP\|Contrastive…
wikiimagebind_llm
…Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind|117. Какие embedding-модели для мультимодального поиска вы…
wikiViLT
…Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind|117. Какие embedding-модели для мультимодального поиска вы…
answerКак работает vision encoder в GPT-4V / LLaVA?
…предобучение vision encoder через контрастивное обучение [[Вики/CLIP\|CLIP]] (Contrastive Language-Image Pre-training) — модель OpenAI, которая учит vision encoder…
wikiRecall@5
…Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…
answerКак вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)?
…Для этого применяются модели, обученные на парах текст-изображение, например [[Вики/CLIP\|CLIP]], [[Вики/ImageBind\|ImageBind]], [[Вики/BLIP-2\|BLIP…
wikicontrastive learning
…Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…
wikiмультимодальный RAG
…Как работает CLIP (Contrastive Language-Image Pre-training) внутренне|536. Как работает CLIP (Contrastive Language-Image Pre-training) внутренне]] - [[552…
wikiImageBind
…Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind|117. Какие embedding-модели для мультимодального поиска вы…