Поиск

wikiCUDA kernel
# CUDA kernel ## Определение Функция, выполняемая на GPU, которая определяет параллельные вычисления. Написание эффективных CUDA kernels является ключевым для оптимизации производительности…
answerCrewAI vs AutoGen vs LangGraph — сравнение?
…сложно задать условные переходы, [[Вики/Cycles\|циклы]], параллельные ветки. - Production-готовность средняя: нет встроенного state-менеджмента, сложно отлаживать долгие [[Вики…
answerКак работает FlashAttention-3 математически?
…64·64·16 = 65 536 FMAD операций. [[Вики/Flash Attention 2\|FA3]] разбивает вычисления так, чтобы [[Вики/WGMMA\|WGMMA]] обрабатывал…
answerВ чем разница между prefill и decode stage в LLM инференсе?
…для [[Вики/prefill stage\|prefill]] — [[Вики/FlashAttention\|FlashAttention]] и параллельные вычисления, для [[Вики/generation\|decode]] — **[[Вики/speculative decoding\|speculative]] [[Вики…
answerЧто такое Wave Decoding и чем отличается от стандартного авторегрессивного?
…ветки можно обрабатывать на одном батче, используя параллельные вычисления [[Вики/GPU\|GPU]]. - [[Вики/гибкость\|Гибкость]]: wave_len и K можно…
answerЧто такое Cooperative Groups в CUDA и как использовать для attention?
…attention]]) требует выполнения операций, которые естественным образом ложатся на параллельные вычисления: - Умножение матриц (Q, K, V) — обычно через [[Вики/cuBLAS…
answerКакие есть методы ускорения тест-тайм компьютинга? (KV-cache, speculative decoding)
…каждый новый [[Вики/token usage\|токен]] требует пересчёта внимания ко всем предыдущим. [[Вики/KV-cache\|KV-cache]] устраняет повторные вычисления…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить распределенные FS (Lustre, BeeGFS, JuiceFS)
…3.4, mdtest 3.4 | Измерение throughput и IOPS | | Параллельные вычисления | OpenMPI 4.1 | Запуск бенчмарков на всех нодах | | Мониторинг…
answerКак работает speculative decoding на уровне логитов, а не токенов?
…Вики/target model\|target]]) принимает или отвергает их, используя параллельные вычисления. - **Draft-модель** — маленькая (например, 7B параметров) или distillation|дистиллированная…
answerКак спроектировать агента, который может выполнять цепочку из 5-10 действий?
…Получить от пользователя тему (например, “квантовые вычисления”). 2. Сгенерировать план: [search_news_a, search_news_b, search_news_c, aggregate…
answerКак вы оптимизируете embedding генерацию для большого количества документов?
…уменьшает [[Вики/memory footprint\|использование памяти]] и ускоряет вычисления. ```python model.half() # модель весит в 2 раза меньше, forward pass…
answerКак вы переключаете агента между инструментами (function calling) с разными сигнатурами?
…Для этого используется **память** (conversation history) и **контекст** (переменные окружения). [[Вики/Concurrent delegation\|Параллельные вызовы]] если инструменты независимы, можно вызвать…
answerКак speculative decoding взаимодействует с KV cache?
…RelayCaching позволяет избежать повторного prefill. - Параллельные агенты: если два агента используют один и тот же контекст (например, общий набор документов…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Все пайплайны параллельные, без блокировок. Target: end-to-end <500ms. > **545. Как работает мультимодальное выравнивание (alignment) в моделях типа Chameleon…