Поиск

  • answerЧто такое gradient clipping и зачем он нужен при обучении LLM?

    …norm clipping и value clipping | Метод | Описание | Типичный порог | Когда использовать | |-------|----------|----------------|-------------------| | [[Вики/clipping\|Norm clipping]] (по норме) | Масштабирует весь вектор…

  • wikiopen_clip

    # open_clip ## Определение Открытая реализация модели CLIP, доступная через библиотеку open_clip, поддерживает различные варианты моделей для мультимодального поиска. ## Где…

  • answerКак работает CLIP (Contrastive Language-Image Pre-training) внутренне?

    …Как работает CLIP (Contrastive Language-Image Pre-training) внутренне? ## Краткий тезис [[Вики/CLIP\|CLIP]] — это [[Вики/VLM\|мультимодальная модель]], которая…

  • wikiCLIP score

    # CLIP score ## Определение Метрика, оценивающая семантическую близость изображения и текста с помощью CLIP. ## Где встречается - [[563. Как вы делаете image…

  • wikiCLIP

    …Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…

  • wikiclipping

    # clipping ## Определение Техника ограничения нормы градиента или отношения вероятностей политик для предотвращения взрыва градиентов и стабилизации обучения (например, gradient clipping

  • wikiALIGN

    # ALIGN ## Определение Мультимодальная модель от Google, обученная на 1.8B пар изображение-текст с асимметричным contrastive loss, альтернатива CLIP. ## Где…

  • answerКак работает Zero-shot classification для изображений (CLIP vs другие методы)?

    …Как работает CLIP [[Вики/CLIP\|CLIP]] — это [[Вики/model\|модель]], обученная на 400 миллионах пар (изображение, текст) из интернета. Архитектура…

  • wikiClip ε

    # Clip ε ## Определение Гиперпараметр PPO (обычно 0.2), ограничивающий отношение вероятностей новой и старой политики для стабильности обучения. ## Где встречается…

  • wikimultimodal retrieval

    …Использует выровненные эмбеддинги, такие как CLIP. ## Где встречается - [[117. Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2…

  • wikiGhost Clipping

    # Ghost Clipping ## Определение Техника оптимизации per-sample clipping в DP-SGD, снижающая потребление памяти за счёт вычисления градиентов только для…

  • wikiLogit Clipping

    # Logit Clipping ## Определение ограничение максимального значения логитов перед softmax ## Где встречается - [[485. Как вы дебажите training instability (loss spikes, divergence…

  • wikiCLIP-based NSFW detector

    # CLIP-based NSFW detector ## Определение Классификатор на основе CLIP для обнаружения контента, не предназначенного для работы (NSFW). ## Где встречается - [[548…

  • wikiSigLIP

    # SigLIP ## Определение SigLIP — улучшенная версия CLIP, использующая sigmoid loss вместо contrastive loss для обучения визуальных эмбеддингов, что позволяет работать с…

  • answerКак вы делаете RAG для изображений (image retrieval without text)?

    …Модель CLIP: основа современного image retrieval **[[Вики/CLIP\|CLIP]] ([[Вики/CLIP\|Contrastive Language-Image Pre-training]])** — [[Вики/model\|модель]] от…

  • answerЧто такое SigLIP и чем отличается от CLIP?

    …Поэтому [[Вики/CLIP\|CLIP]] обучают с огромными батчами (32k–64k), что требует много памяти. --- ## 2. Проблемы CLIP - Зависимость от размера…

  • wikigradient clipping

    # gradient clipping ## Определение Техника ограничения нормы градиентов при обучении для предотвращения взрыва градиентов, типичное значение — 1.0. ## Где встречается - [[800…

  • wikisigmoid loss

    …Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…

  • answerКакие embedding-модели для мультимодального поиска вы используете? CLIP, BLIP-2, ImageBind?

    …Интеграция в пайплайн мультимодального RAG Пример для CLIP (python): ```python import torch from transformers import CLIPProcessor, CLIPModel model = CLIPModel.from…

  • wikiResNet

    …Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…

  • answerКак вы делаете image captioning для RAG (извлечение описания изображения)?

    …Комбинация с CLIP embedding: dual-encoder подход **[[Вики/CLIP\|CLIP]] ([[Вики/CLIP\|Contrastive Language-Image Pre-training]])** — [[Вики/model\|модель…

  • answerЧто такое vanishing / exploding gradients в трансформерах и как их предотвратить?

    …Gradient Clipping [[Вики/gradient clipping\|Gradient clipping]] — ограничение нормы градиента (или отдельных значений) перед применением оптимизатора. Основные методы - [[Вики/clipping

  • answerКак вы индексируете видео-контент в RAG-системе?

    …Индексируем отдельно от аудио-эмбеддингов. ```python import clip model, preprocess = clip.load("ViT-B/32") image = preprocess(Image.open("frame…

  • answerКак работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?

    …текст и изображения имеют разную статистику. [[Вики/CLIP\|CLIP]] обучен на парах, но не идеально выравнивает все возможные [[Вики/Query…

  • wikiOpenCLIP

    # OpenCLIP ## Определение Открытая реализация модели CLIP, позволяющая тренировать и использовать мультимодальные эмбеддинги для поиска изображений по тексту. ## Где встречается - [[537…

  • wikiBag-of-words bias

    # Bag-of-words bias ## Определение Ограничение модели CLIP, при котором она не учитывает порядок слов в предложении, что может приводить…

  • answerКак работает CLIP и как training contrastive loss выравнивает текст и изображения?

    …Что такое CLIP и зачем он нужен [[Вики/CLIP\|CLIP]] — [[Вики/model\|модель]] от [[Вики/LLM endpoint\|OpenAI]] (2021), которая…

  • wikiZero-shot

    …Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…

  • wikicontrastive loss

    # contrastive loss ## Определение Функция потерь для обучения эмбеддингов, максимизирующая сходство правильных пар и минимизирующая сходство неправильных; используется в CLIP и…

  • wikiInfoNCE

    # InfoNCE ## Определение InfoNCE (Noise Contrastive Estimation loss) — функция потерь контрастивного обучения, используемая для обучения эмбеддингов, например в CLIP. Она максимизирует…

  • wikiEfficientNet

    # EfficientNet ## Определение Легкая архитектура свёрточной нейросети, используемая как энкодер изображений в моделях типа CLIP и для real-time video understanding…

  • wikirecall@1

    …Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…

  • answerКак вы делаете image retrieval по тексту с высокой точностью?

    CLIP (Contrastive Language–Image Pre-training) [[Вики/CLIP\|CLIP]] — [[Вики/model\|модель]] от [[Вики/LLM endpoint\|OpenAI]], обученная на 400…

  • wikiViT

    …Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…

  • answerЧто такое PPO (Proximal Policy Optimization) и почему он используется в RLHF?

    …Ключевой элемент — [[Вики/clipping\|clipping]] ([[Вики/selective pruning\|отсечение]]) отношения вероятностей: $$ r_t(\theta) = \frac{\pi_\theta(a_t|s…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами

    …Создание мультимодальных эмбеддингов (2 часа) [[Вики/Действия\|Действия]] 1. [[Вики/Загрузите CLIP\|Загрузите CLIP]] и sentence-transformer: ```python from transformers…

  • wikiBLIP

    …Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…

  • wikitimm

    …Что такое SigLIP и чем отличается от CLIP|537. Что такое SigLIP и чем отличается от CLIP]] ## Навигация - [[00. Индекс…

  • wikiLiT

    …Что такое SigLIP и чем отличается от CLIP|537. Что такое SigLIP и чем отличается от CLIP]] ## Навигация - [[00. Индекс…

  • wikiUniformity

    …Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…

  • wikiFLAVA

    …Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind|117. Какие embedding-модели для мультимодального поиска вы…

  • answerКак вы индексируете видео-контент в RAG-системе?

    …Визуальные эмбеддинги (CLIP) [[Вики/ключевой кадр\|Ключевой кадр]] подаётся в мультимодальную [[Вики/model\|модель]] [[Вики/CLIP\|CLIP]] ([[Вики/CLIP\|Contrastive…

  • wikiimagebind_llm

    …Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind|117. Какие embedding-модели для мультимодального поиска вы…

  • wikiViLT

    …Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind|117. Какие embedding-модели для мультимодального поиска вы…

  • answerКак работает vision encoder в GPT-4V / LLaVA?

    …предобучение vision encoder через контрастивное обучение [[Вики/CLIP\|CLIP]] (Contrastive Language-Image Pre-training) — модель OpenAI, которая учит vision encoder…

  • wikiRecall@5

    …Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…

  • answerКак вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)?

    …Для этого применяются модели, обученные на парах текст-изображение, например [[Вики/CLIP\|CLIP]], [[Вики/ImageBind\|ImageBind]], [[Вики/BLIP-2\|BLIP…

  • wikicontrastive learning

    …Как работает CLIP и как training contrastive loss выравнивает текст и изображения|361. Как работает CLIP и как training contrastive…

  • wikiмультимодальный RAG

    …Как работает CLIP (Contrastive Language-Image Pre-training) внутренне|536. Как работает CLIP (Contrastive Language-Image Pre-training) внутренне]] - [[552…

  • wikiImageBind

    …Какие embedding-модели для мультимодального поиска вы используете CLIP, BLIP-2, ImageBind|117. Какие embedding-модели для мультимодального поиска вы…