Поиск

wikiMEGA
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiMegaByte
# MegaByte ## Определение MegaByte — архитектура, которая обрабатывает байтовые патчи вместо токенов, ускоряя токенизацию и снижая вычислительные затраты. ## Где встречается - [[284. Как…
wikiMegablocks
# Megablocks ## Определение Библиотека для эффективного expert parallelism в MoE моделях, оптимизирующая разреженные матричные умножения и коммуникацию. ## Где встречается - [[849. Что…
wikiVision-Language Models
…Оцениваются с помощью бенчмарков MEGA и MM-Vet. ## Где встречается - [[560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiMMBench
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiVisDial
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiMegatron-LM
# Megatron-LM ## Определение Megatron-LM — фреймворк от NVIDIA для распределённого обучения больших языковых моделей, реализующий 3D parallelism (data, tensor, pipeline…
wikiVisual grounding accuracy
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiMM-Vet
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
answerКак работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?
…Поэтому разработаны специализированные [[Вики/Benchmarks\|бенчмарки]] и метрики: [[Вики/MM-Vet\|MM-Vet]], [[Вики/MEGA\|MEGA]], [[Вики/MMBench\|MMBench]], а…
wikiScene Graph Generation
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiScene Graph
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiSPICE
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiCOCO Captions
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiFlickr30k
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiVQA
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiCIDEr
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikicontext parallelism
# context parallelism ## Определение Техника распараллеливания последовательности из Megatron-LM, оптимизирующая коммуникацию при обработке длинного контекста. ## Где встречается - [[650. Что такое…
wikiNDCG
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
answerЧто такое 3D parallelism (data + tensor + pipeline)?
…GPT-3 (175B), Llama 2/3 (70B, 405B), PaLM (540B), Megatron-Turing NLG (530B). Например: - GPT-3: DP=16, TP…
answerКак работает FP8 quantization на H100 (Transformer Engine)?
…TE интегрирован в библиотеки [[Вики/NeMo\|NeMo]] и [[Вики/Megatron-LM\|Megatron]]‑LM, упрощая внедрение. ## 1. Термин: FP8 quantization [[Вики…
answerКак работает tensor parallelism для LLM training? Чем отличается от инференса?
…В большинстве реализаций (например, [[Вики/Megatron-LM\|Megatron‑LM]]) для внимания (Self‑[[Вики/Attention\|Attention]]) применяют row‑wise для Q…
wikiF1
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiROUGE
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiBLEU
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiMRR
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
wikiAnswer relevance
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…
answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?
…автоматически выбирает TP/PP на основе профилирования. - [[Вики/Megatron-LM\|Megatron-LM]]: оригинальная реализация TP+PP для обучения, адаптирована для…
answerZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?
…Что такое curriculum learning для LLM и как его реализовать\|466]] | Tensor Parallelism и его реализация (Megatron-LM) | --- ## Навигация (Obsidian…
answerЧто такое expert parallelism для MoE моделей (Mixtral)?
…Используется для Switch Transformer, Mixtral. | | [[Вики/Megablocks\|Megablocks]] (Stanford) | Оптимизированные ядра для efficient sparse MoE (как expert parallelism, так и…
answerЧто такое memory-efficient attention для long context на 8x H100?
…Инструменты - [[Вики/VLLM\|vLLM]] — поддерживает PagedAttention и FlashAttention. - [[Вики/Megatron-LM\|Megatron-LM]] / [[Вики/NeMo\|NVIDIA NeMo]] — поддерживают TP, SP…
answerЧто такое curriculum learning для LLM и как его реализовать?
…1 return lengths ``` В реальных фреймворках (например, [[Вики/Megatron-LM\|Megatron-LM]], [[Вики/PyTorch Lightning\|PyTorch Lightning]]) такой [[Вики/Sampler…
answerЧто такое pipeline parallelism и проблема pipeline bubbles?
…Forward One Backward]]) — стандарт в современных фреймворках ([[Вики/Megatron-LM\|Megatron-LM]], [[Вики/DeepSpeed\|DeepSpeed]]). [[Вики/Memory\|Память]] экономится, потому…
answerКак работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения?
…работает с отдельными байтами, полностью избегает [[Вики/OOV\|OOV]], но последовательности становятся длиннее. - [[Вики/MegaByte\|MegaByte]]: использует [[Вики/патчи\|патчи…
answerЧто такое packing sequences и зачем он нужен?
…Современные фреймворки ([[Вики/Hugging Face\|Hugging Face Transformers]], [[Вики/Megatron-LM\|Megatron-LM]], [[Вики/Flash Attention 2\|FlashAttention-2]]) поддерживают…
answerКак вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)?
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей\|560]] | Как проектировать multimodal RAG для таблиц и графиков? | | [[562…
wikiTensor parallelism
# Tensor parallelism ## Определение Стратегия распределения модели, при которой веса слоёв разрезаются между GPU, а attention heads распределяются. Требует частых коммуникаций…
answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?
…для трансформеров разработаны эффективные методы (ZeRO, DeepSpeed, Megatron-LM), позволяющие обучать модели с сотнями миллиардов параметров. Для SSM таких оптимизаций…
answerЧто такое DeepSpeed ZeRO-Offload и когда он полезен?
…Почему small batch size (32) ухудшает training стабильность\|468]] | Как устроен Tensor Parallelism в Megatron-LM? | | [[469. Как работает Mixed…
answerЧто такое LayoutLMv3 и зачем он для document understanding?
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей\|560]] | Agentic RAG: как агент использует DU | --- ## Навигация (Obsidian) - Предыдущий…
answerЧто такое Parameter-Efficient Fine-Tuning (PEFT) и какие методы вы знаете?
…хранить только маленькие адаптеры (megabytes) вместо целых моделей. - Защита от катастрофического забывания: замороженные веса сохраняют исходные знания. ### Минусы - На очень…
answerКак работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей\|560]] | Безопасность мультимодального RAG | --- ## Навигация (Obsidian) - Предыдущий: [[554. Как вы…
answerЧто такое Audio RAG (RAG для аудиофайлов)?
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей\|560]] - [[Вики/Qdrant\|Индекс]]: [[00. Индекс разборов]]
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть vLLM на 8 GPU с Tensor Parallelism и замерить throughput
…11.8+) | Облачный инстанс (AWS p4d.24xlarge, GCP a2-megagpu-8gpu) или on-prem кластер | | Выбранная LLM (например, LLaMA-3…
answerКак работает whisper.cpp для локального ASR с low latency?
…Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей\|560]] | Как работает Agentic RAG? | | [[561. Как вы проектируете multimodal…
answerКак вы дебажите training instability (loss spikes, divergence)?
…при использовании [[Вики/Tensor parallelism\|tensor parallelism]] (например, в Megatron-LM). Неправильное масштабирование между устройствами может вызвать spikes. --- ## 7. Специфика…
answerКогда tensor parallelism хуже pipeline parallelism?
…Parallelism (DP)** — для репликации модели на несколько групп. Пример: Megatron-LM для модели 175B: - TP=8 (8 GPU внутри узла…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral
…Accelerate | Загрузка модели и sharding | | Expert parallelism | Tensor‑Parallel (Megatron‑LM style) или `deepseed` | Размещение экспертов на разных GPU | | Мониторинг…
answerКак работает sequence parallelism в контексте LLM?
…делается асинхронно (перекрытие с вычислениями). - На практике в фреймворках (Megatron-LM, DeepSpeed, vLLM) используется оптимизированная версия с ядрами CUDA. ## 6…
answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?
…Communications Library) оптимизирована для H100 и широко используется в Megatron-LM, DeepSpeed. [[Вики/RCCL\|RCCL]] (AMD) — аналог, но с меньшим…