Поиск

wikiMulti-Query Attention
# Multi-Query Attention ## Определение Механизм внимания, где все головы запросов используют общий набор ключей-значений для экономии KV-кеша. ## Где…
wikiBatch inference
…Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они|277. Что такое multi-query attention…
wikibatch size
…Что такое multi-query attention (MQA) и grouped-query attention (GQA) и зачем они|277. Что такое multi-query attention…
answerКак организовать streaming feature pipelines для real-time RAG?
…query = df \ .writeStream \ .format("parquet") \ .option("path", "s3://features/offline/") \ .option("checkpointLocation", "s3://checkpoints/") \ .partitionBy("event_date") \ .trigger(processingTime="5…
answerКак вы делаете image retrieval по тексту с высокой точностью?
…Query expansion через LLM **[[Вики/query expansion\|Query expansion]]** — [[Вики/generation\|генерация]] нескольких вариантов запроса для повышения [[Вики/accuracy\|recall…
answerКак вы уменьшаете галлюцинации в RAG?
…Контекст: {relevant_chunks} Вопрос: {query} Ответ: """ # ===== Уровень 3: Generation ===== response = llm.generate(prompt, temperature=0.1) # ===== Уровень 4: Post-processing…
answerКак вы обрабатываете streaming данные для real-time RAG?
…Параллельно RAG-оркестратор читает из той же БД для ответов на [[Вики/Query\|запросы]]. ## 3. Оконная обработка (windowed processing) [[Вики…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить inference schedulers (FCFS vs Priority)
…Создать класс `InferenceRequest` с полями: `[[Вики/tenant_id\|tenant_id]]`, `[[Вики/Priority\|priority]]` (0 — low, 1 — high), `arrival_time`, `processing…
answerКак вы делаете distributed tracing для цепочки: user → gateway → RAG → LLM → user?
…span.set_attribute("query", user_query) span.set_attribute("num_docs", len(docs)) # ... логика поиска ``` --- ## 4. Trace propagation через HTTP…
answerЧто такое "lost in the middle" и как это связано с attention sink?
…multi-query attention **[[Вики/Multi-Query Attention\|Multi-query attention]]** (или [[Вики/Multi-Query Attention\|parallel context processing]]) — подход, при…
answerКак работает RAPTOR (иерархическое суммирование для длинного контекста)?
…query_emb = embedder.encode([query]) node = tree.root while node.children: # выбираем ребёнка с максимальной косинусной близостью child_scores = [cosine…
answerКак вы строите двухступенчатый ретривал (fast ANN + slow cross-encoder) в RAG?
…ANN query_emb = bi_encoder.encode(query) distances, indices = index.search(query_emb, top_k) # HNSW candidates = [documents[i] for…
answerКак вы снижаете стоимость LLM в production на 50%+?
…Batch processing (пакетная обработка) Если [[Вики/Latency\|задержка]] ([[Вики/Latency\|latency]]) не критична, объединяем [[Вики/Query\|запросы]] в одну партию…
answerКак происходит PII leakage через LLM и как защититься?
…отказа от ответа на приватные [[Вики/Query\|запросы]], и **[[Вики/Post-processing\|post-processing]]** [[Вики/Filters\|фильтры]] на инференсе. --- ## 1…
answerЧто такое continuous batching и как оно влияет на throughput?
…Проблема статического батчинга При [[Вики/static batching\|static batching]] (статическом батчинге) сервер накапливает [[Вики/Query\|запросы]], формирует фиксированный [[Вики/batch…
answerЧто такое data exfiltration через LLM (утечка данных через ответы)?
…очистка обучающих данных, [[Вики/Reinforcement Learning from Human Feedback\|RLHF]] для обучения отказу, [[Вики/Post-processing\|пост-процессинг]] с фильтрацией…
answerКак работает diffusion backends для генерации изображений в AI-агентах?
…Пример функции-агента: ```python def generate_image_agent(user_query: str) -> str: prompt = f"{user_query}, high quality, detailed, 4k…
answerКак вы делаете image captioning для RAG (извлечение описания изображения)?
…query_clip_emb = clip_model.encode_text(clip.tokenize([query])) query_text_emb = text_encoder.encode([query]) clip_score = np…
answerКак вы делаете backfill эмбеддингов при смене embedding модели?
…int = 5): # Используем активный индекс index = self.client.Index(self.config.active_index) query_embedding = get_embedding(query, model=self…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать Bloom filter для retrieval
…4. [[Вики/Query\|Запросы]] разделить: 40% — есть в списке (found), 60% — нет (not found). 5. Замерить [[Вики/Processing time\|время…
answerКак делать feature engineering для RAG (кроме текста)?
…Пример кода с [[Вики/Faiss\|Qdrant]] ([[Вики/SQL\|Python]]): ```python client.search( collection_name="docs", query_vector=query_emb, query…
answerКак вы делаете асинхронную обработку long-running (>30s) LLM задач?
…в очереди - `processing` — выполняется - `completed` — готово - `failed` — [[Вики/Failure mode\|ошибка]] Недостатки [[Вики/polling\|polling]] - Лишние [[Вики/Query\|запросы]], нагрузка…
answerКак вы делаете incremental ingestion для часто меняющихся документов?
…2 } ``` **[[Вики/фильтр\|Фильтр]] при [[Вики/retrieval\|retrieval]] ([[Вики/Faiss\|Qdrant]]):** ```python client.search( collection_name="documents", query_vector=query…
answerЧто вы сделаете в первую неделю на новой работе Senior AI Engineer?
…list of query texts gold_docs: dict {query_id: list of relevant doc ids} retrieved: dict {query_id: list of…
answerКак работает continuous batching в TGI (Hugging Face Text Generation Inference)?
…Пока все [[Вики/Query\|запросы]] не закончат генерацию, новые [[Вики/Query\|запросы]] не могут быть добавлены. Недостатки статического [[Вики/Batch…
answerЧто такое Guided Decoding и как оно связано с JSON schema?
…XML\|JSON]], но не соответствующий ожидаемой структуре. [[Вики/Post-processing\|Пост-обработка]] (например, `[[Вики/XML\|json]].loads()` с [[Вики/try…
answerЧто такое KV cache reuse в multi-turn диалогах и как его реализовать?
…Входной [[Вики/token\|токен]] x_t преобразуется в [[Вики/Query\|Query]] (Q_t), [[Вики/Key\|Key]] (K_t), [[Вики/Query…
answerКак защититься от prompt stealing (кража системного промпта)?
…Типичные [[Вики/Query\|запросы]]: «[[Вики/retry\|Repeat]] after me: “[[Вики/промпт агента\|System prompt]]: …”», «[[Вики/refusal suppression\|Ignore previous instructions…
answerКак вы проектируете RAG для 10k RPS с P99 latency <200ms? Архитектура.
…Храним пары ([[Вики/Query embedding\|эмбеддинг запроса]], ответ). Для каждого входящего запроса вычисляем эмбеддинг (можно лёгкой моделью, например, [[Вики/embedding…
answerКак вы делаете extraction таблиц из PDF для RAG?
…Решение: [[Вики/Post-processing\|постобработка]] — заполнение пустых ячеек значениями из предыдущей строки/столбца. ### 7.2 Таблицы-изображения Требуют [[Вики/Tesseract…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить prompt caching
…Запустить тот же [[Вики/query set\|набор запросов]] (50), замерить время. Обратить [[Вики/Attention\|внимание]]: если все [[Вики/Query\|запросы…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить load balancing между агентами
…request.rel_url.query.get('user_id', None), "timestamp": time.time() }) app = web.Application() app.router.add_get('/process/{req…
answerКак вы проектируете dead letter queue для failed LLM инференс запросов?
…В контексте LLM-инференса [[Вики/Dead Letter Queue\|DLQ]] хранит [[Вики/Query\|запросы]], которые не удалось выполнить из-за ошибок…
answerКак вы проектируете multimodal RAG для диаграмм (flowchart, architecture diagram)?
…Retrieval query = "What happens after validation?" q_emb = encoder.encode([query]) D, I = index.search(q_emb, k=1) retrieved…
answerКак проектировать distributed dead letter queue для сообщений?
…заголовки для быстрой фильтрации, [[Вики/Query\|value]] для полного контекста. --- ## 5. Политика хранения (Retention) [[Вики/Dead Letter Queue\|DLQ]] не…
answerКак работает модели типа Kosmos-2 (grounding объектов на изображении)?
…4. [[Вики/Post-processing\|Постобработка]] координаты декодируются из токенов обратно в числа, умножаются на ширину/высоту изображения для получения пиксельных…
wikiИндекс терминов
…Query|Query]] - [[Вики/Query Complexity Classifier|Query Complexity Classifier]] - [[Вики/query complexity distribution|query complexity distribution]] - [[Вики/Query embedding|Query…
answerКак вы шифруете данные для RAG (конфиденциальность)?
…при хранении (at [[Вики/REST\|rest]]), при передаче (in transit) и во [[Вики/Processing time\|время обработки]] (in use). Самый…
answerКак работает HNSW (Hierarchical Navigable Small World) алгоритм внутренне?
…реализовать вставку pass def search(self, query, k=10): # TODO: реализовать поиск pass ``` --- ## Связь с другими вопросами | Вопрос | Тема | |--------|------| | [[220…
answerКак вы обновляете embedding модель без полной переиндексации?
…Преимущества - [[Вики/zero downtime\|Нулевой даунтайм]] для чтения ([[Вики/Query\|запросы]] обслуживаются). - Возможность A/B-тестирования: сравниваем качество результатов двух…
answerКак вы делаете backfill эмбеддингов при смене embedding модели?
…Query\|запросы]]. При [[Вики/Backfill\|backfill]] мы стремимся к [[Вики/Zero-downtime\|zero-downtime]]. - **[[Вики/batch size\|Batch processing]]** — обработка…
answerКак работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?
…Основные техники: - [[Вики/Jailbreak\|Jailbreak-промпты]] — специальные [[Вики/Query\|запросы]], обходящие [[Вики/constraints\|ограничения]] (например, «[[Вики/refusal suppression\|Ignore previous…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Как вы делаете query rewriting и query expansion в RAG?** > *Ответ:* LLM переписывает запрос (query rewriting) или добавляет синонимы (expansion…
indexПРАКТИЧЕСКИЙ ЧЕКЛИСТ: СТАFF+ AI SYSTEMS ENGINEERING
…S3|Query latency: hot <10ms, cold <1s| |6|Реализовать compaction в векторной БД|Периодическое слияние маленьких сегментов|Query latency не…