Поиск

  • wikiMEGA

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiMegaByte

    # MegaByte ## Определение MegaByte — архитектура, которая обрабатывает байтовые патчи вместо токенов, ускоряя токенизацию и снижая вычислительные затраты. ## Где встречается - [[284. Как…

  • wikiMegablocks

    # Megablocks ## Определение Библиотека для эффективного expert parallelism в MoE моделях, оптимизирующая разреженные матричные умножения и коммуникацию. ## Где встречается - [[849. Что…

  • wikiVision-Language Models

    …Оцениваются с помощью бенчмарков MEGA и MM-Vet. ## Где встречается - [[560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiMMBench

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiVisDial

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiMegatron-LM

    # Megatron-LM ## Определение Megatron-LM — фреймворк от NVIDIA для распределённого обучения больших языковых моделей, реализующий 3D parallelism (data, tensor, pipeline…

  • wikiVisual grounding accuracy

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiMM-Vet

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • answerКак работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?

    …Поэтому разработаны специализированные [[Вики/Benchmarks\|бенчмарки]] и метрики: [[Вики/MM-Vet\|MM-Vet]], [[Вики/MEGA\|MEGA]], [[Вики/MMBench\|MMBench]], а…

  • wikiScene Graph Generation

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiScene Graph

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiSPICE

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiCOCO Captions

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiFlickr30k

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiVQA

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiCIDEr

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikicontext parallelism

    # context parallelism ## Определение Техника распараллеливания последовательности из Megatron-LM, оптимизирующая коммуникацию при обработке длинного контекста. ## Где встречается - [[650. Что такое…

  • wikiNDCG

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • answerЧто такое 3D parallelism (data + tensor + pipeline)?

    …GPT-3 (175B), Llama 2/3 (70B, 405B), PaLM (540B), Megatron-Turing NLG (530B). Например: - GPT-3: DP=16, TP…

  • answerКак работает FP8 quantization на H100 (Transformer Engine)?

    …TE интегрирован в библиотеки [[Вики/NeMo\|NeMo]] и [[Вики/Megatron-LM\|Megatron]]‑LM, упрощая внедрение. ## 1. Термин: FP8 quantization [[Вики…

  • answerКак работает tensor parallelism для LLM training? Чем отличается от инференса?

    …В большинстве реализаций (например, [[Вики/Megatron-LM\|Megatron‑LM]]) для внимания (Self‑[[Вики/Attention\|Attention]]) применяют row‑wise для Q…

  • wikiF1

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiROUGE

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiBLEU

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiMRR

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • wikiAnswer relevance

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей|560. Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL…

  • answerTensor parallelism vs pipeline parallelism vs data parallelism — сравните для LLM инференса?

    …автоматически выбирает TP/PP на основе профилирования. - [[Вики/Megatron-LM\|Megatron-LM]]: оригинальная реализация TP+PP для обучения, адаптирована для…

  • answerZeRO-1 vs ZeRO-2 vs ZeRO-3: что и когда использовать?

    …Что такое curriculum learning для LLM и как его реализовать\|466]] | Tensor Parallelism и его реализация (Megatron-LM) | --- ## Навигация (Obsidian…

  • answerЧто такое expert parallelism для MoE моделей (Mixtral)?

    …Используется для Switch Transformer, Mixtral. | | [[Вики/Megablocks\|Megablocks]] (Stanford) | Оптимизированные ядра для efficient sparse MoE (как expert parallelism, так и…

  • answerЧто такое memory-efficient attention для long context на 8x H100?

    …Инструменты - [[Вики/VLLM\|vLLM]] — поддерживает PagedAttention и FlashAttention. - [[Вики/Megatron-LM\|Megatron-LM]] / [[Вики/NeMo\|NVIDIA NeMo]] — поддерживают TP, SP…

  • answerЧто такое curriculum learning для LLM и как его реализовать?

    …1 return lengths ``` В реальных фреймворках (например, [[Вики/Megatron-LM\|Megatron-LM]], [[Вики/PyTorch Lightning\|PyTorch Lightning]]) такой [[Вики/Sampler…

  • answerЧто такое pipeline parallelism и проблема pipeline bubbles?

    …Forward One Backward]]) — стандарт в современных фреймворках ([[Вики/Megatron-LM\|Megatron-LM]], [[Вики/DeepSpeed\|DeepSpeed]]). [[Вики/Memory\|Память]] экономится, потому…

  • answerКак работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения?

    …работает с отдельными байтами, полностью избегает [[Вики/OOV\|OOV]], но последовательности становятся длиннее. - [[Вики/MegaByte\|MegaByte]]: использует [[Вики/патчи\|патчи…

  • answerЧто такое packing sequences и зачем он нужен?

    …Современные фреймворки ([[Вики/Hugging Face\|Hugging Face Transformers]], [[Вики/Megatron-LM\|Megatron-LM]], [[Вики/Flash Attention 2\|FlashAttention-2]]) поддерживают…

  • answerКак вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)?

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей\|560]] | Как проектировать multimodal RAG для таблиц и графиков? | | [[562…

  • wikiTensor parallelism

    # Tensor parallelism ## Определение Стратегия распределения модели, при которой веса слоёв разрезаются между GPU, а attention heads распределяются. Требует частых коммуникаций…

  • answerПочему трансформеры до сих пор побеждают SSM на большинстве задач (2026)?

    …для трансформеров разработаны эффективные методы (ZeRO, DeepSpeed, Megatron-LM), позволяющие обучать модели с сотнями миллиардов параметров. Для SSM таких оптимизаций…

  • answerЧто такое DeepSpeed ZeRO-Offload и когда он полезен?

    …Почему small batch size (32) ухудшает training стабильность\|468]] | Как устроен Tensor Parallelism в Megatron-LM? | | [[469. Как работает Mixed…

  • answerЧто такое LayoutLMv3 и зачем он для document understanding?

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей\|560]] | Agentic RAG: как агент использует DU | --- ## Навигация (Obsidian) - Предыдущий…

  • answerЧто такое Parameter-Efficient Fine-Tuning (PEFT) и какие методы вы знаете?

    …хранить только маленькие адаптеры (megabytes) вместо целых моделей. - Защита от катастрофического забывания: замороженные веса сохраняют исходные знания. ### Минусы - На очень…

  • answerКак работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей\|560]] | Безопасность мультимодального RAG | --- ## Навигация (Obsidian) - Предыдущий: [[554. Как вы…

  • answerЧто такое Audio RAG (RAG для аудиофайлов)?

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей\|560]] - [[Вики/Qdrant\|Индекс]]: [[00. Индекс разборов]]

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть vLLM на 8 GPU с Tensor Parallelism и замерить throughput

    …11.8+) | Облачный инстанс (AWS p4d.24xlarge, GCP a2-megagpu-8gpu) или on-prem кластер | | Выбранная LLM (например, LLaMA-3…

  • answerКак работает whisper.cpp для локального ASR с low latency?

    …Как работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей\|560]] | Как работает Agentic RAG? | | [[561. Как вы проектируете multimodal…

  • answerКак вы дебажите training instability (loss spikes, divergence)?

    …при использовании [[Вики/Tensor parallelism\|tensor parallelism]] (например, в Megatron-LM). Неправильное масштабирование между устройствами может вызвать spikes. --- ## 7. Специфика…

  • answerКогда tensor parallelism хуже pipeline parallelism?

    …Parallelism (DP)** — для репликации модели на несколько групп. Пример: Megatron-LM для модели 175B: - TP=8 (8 GPU внутри узла…

  • practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить expert parallelism для Mixtral

    …Accelerate | Загрузка модели и sharding | | Expert parallelism | Tensor‑Parallel (Megatron‑LM style) или `deepseed` | Размещение экспертов на разных GPU | | Мониторинг…

  • answerКак работает sequence parallelism в контексте LLM?

    …делается асинхронно (перекрытие с вычислениями). - На практике в фреймворках (Megatron-LM, DeepSpeed, vLLM) используется оптимизированная версия с ядрами CUDA. ## 6…

  • answerБенчмаркинг LLM на AMD MI300X vs H100: различия в архитектуре и оптимизации?

    …Communications Library) оптимизирована для H100 и широко используется в Megatron-LM, DeepSpeed. [[Вики/RCCL\|RCCL]] (AMD) — аналог, но с меньшим…