Knowledge Portal

aivaro.ru

  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Тесты
  • Поиск
✈Telegram @AetSeidhe
RUEN中文
…
Оглавление/Вики/Image

Image

Image

Определение

Тип данных, представляющий визуальное содержимое (фотография, рисунок). В контексте RAG используется как источник признаков наряду с текстом.

Где встречается

  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминdata

Обратные ссылки (19)

  • Индекс терминов
  • Как вы делаете RAG для изображений (image retrieval without text)?
  • Как вы делаете image captioning для RAG (извлечение описания изображения)?
  • Как вы делаете image retrieval по тексту с высокой точностью?
  • Как вы индексируете видео-контент в RAG-системе?
  • Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)?
  • Как вы тестируете видение модели (vision-language) на пропущенные детали?
  • Как работает CLIP (Contrastive Language-Image Pre-training) внутренне?
  • Как работает CLIP и как training contrastive loss выравнивает текст и изображения?
  • Как работает Zero-shot classification для изображений (CLIP vs другие методы)?
  • Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
  • Как работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?
  • Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения?
  • Какие embedding-модели для мультимодального поиска вы используете? CLIP, BLIP-2, ImageBind?
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить self-training с псевдо-метками
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать handshake при соединении агентов
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить Hyena vs FlashAttention на 128k
  • Что такое Fuyu-8B и чем архитектурно отличается от GPT-4V?
  • Что такое LayoutLMv3 и зачем он для document understanding?