Поиск

wikiTTS
# TTS ## Определение Технология синтеза речи из текста. В real-time voice агентах требуется потоковая генерация для обеспечения низкой задержки (например…
wikiCancellation token
…Используется для корректного завершения длительных задач, таких как генерация текста. ## Где встречается - [[88. Как бы вы добавили отмену (cancellation) для…
wikiTop-k routing
…Как вы делаете synthetic eval (генерация тестовых вопросов по документам)|687. Как вы делаете synthetic eval (генерация тестовых вопросов по…
wikiabstractive summarization
# abstractive summarization ## Определение Суммаризация с перефразированием и обобщением, генерация нового связного текста на основе исходного. ## Где встречается - [[2 Как вы…
answerКак работает мультимодальное выравнивание (alignment) в моделях типа Chameleon (Meta)?
…Autoregressive generation для текста и изображений **[[Вики/autoregressive generation\|Авторегрессивная генерация]]** означает, что [[Вики/model\|модель]] предсказывает следующий [[Вики/token…
wikiHyDE
…Как делать feature engineering для RAG (кроме текста)|862. Как делать feature engineering для RAG (кроме текста)]] - [[Практика|Практика]] - [[800…
wikiNLI
# NLI ## Определение Natural Language Inference — задача определения логической связи (entailment, contradiction, neutral) между двумя текстами. Используется для оценки faithfulness ответов…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать deliberate decoding
…Цель — улучшить качество ответов на сложные задачи (многошаговые рассуждения, [[Вики/generation\|генерация]] длинного контента). Ключевой результат Рабочий [[Вики/пайплайн\|пайплайн…
answerКак работает model watermarking для LLM (идентификация модели-источника)?
…Если позиция не выбрана — [[Вики/generation\|генерация]] идёт обычным образом. 4. Контроль качества: чтобы не нарушить [[Вики/coherence\|связность]] текста…
answerКак работает Toolformer-like обучение для агентов (self-supervised tool use)?
…Генерация кандидатов на вызов API (маскировка) На первом этапе для каждого текста из корпуса [[Вики/model\|модель]] генерирует возможные места…
answerЧто такое watermarking для LLM генераций и как его детектировать?
…и watermark становится недетектируемым. - **Генерация без водяного знака с последующим объединением**: если модель генерирует часть текста с watermark, а часть…
answerЧто такое watermarking для LLM генераций и как его детектировать?
…своих генерациях с [[Вики/watermark\|watermark]] (ожидается z > 4). - генерациях без [[Вики/watermark\|watermark]] (z около 0). - человеческих текстах (например…
answerКак работает мультимодальный RAG с unified retrieval (один индекс для текста и изображений)?
…если в индексе много текста и мало изображений, [[Вики/retrieval\|поиск]] может быть смещён в сторону текста (или наоборот). - Качество…
answerЧем мультимодальный RAG отличается от «OCR + текстовый RAG»? Почему второго недостаточно?
…используйте `PyMuPDF` (fitz) для извлечения текста и изображений. Сохраняйте позицию каждого элемента на странице. 2. Генерация эмбеддингов: для каждого текстового…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: RAG с мультимодальными документами
…параграф текста, таблицу (2×3), одно изображение (любая картинка из интернета). 2. [[Вики/Таблица\|Таблица]] – сохраните как CSV, если парсинг…
answerКак вы делаете data quality monitoring для RAG корпуса?
…отсутствие null-значений в обязательных полях, контроль длины текста, детекцию дубликатов, проверку языка и выявление персональных данных (PII). Инструменты вроде…
answerКак работает RAPTOR (иерархическое суммирование для длинного контекста)?
…Каждый [[Вики/node\|узел]] дерева — это [[Вики/summarization\|краткое изложение]] ([[Вики/суммаризация таблицы\|саммари]]) группы семантически связанных фрагментов текста. Мотивация…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент для email
…текста/вложений | | Классификация | LLM API (OpenAI) / Hugging Face transformers | Определение типа письма | | Генерация ответа | LLM API (OpenAI) / Anthropic | Создание текста…
answerКак работает Q-Former в BLIP-2 и зачем он нужен?
…grounded Text Generation\|Image-grounded Text Generation]])** — [[Вики/generation\|генерация]] текста на основе изображения (например, [[Вики/image captioning\|captioning]]). --- ## 5…
answerКак вы тестируете robustness LLM к adversarial input (не только injection)?
…1. [[Вики/model selection\|Выбор модели]] и задач — классификация, генерация, QA. 2. Выбор набора атак — минимум 3-4 метода (TextFooler…
wikiавторегрессивное декодирование
# авторегрессивное декодирование ## Определение Стандартный метод генерации текста в LLM, при котором токены вырабатываются последовательно, каждый следующий зависит от предыдущих. Это…
answerЧто такое Wave Decoding и чем отличается от стандартного авторегрессивного?
…на длинных текстах ещё больше). - Подходит для [[Вики/runtime\|real-time]]: голосовые ассистенты, автодополнение кода, UI-генерация. - Меньше потребление энергии…
answerКак работает AudioLM и MusicGen для генерации аудио?
…Генерация аудио и её сложности [[Вики/генерация аудио\|Генерация аудио]] — [[Вики/Task\|задача]] создания звуковых сигналов (речь, музыка, шумы) по…
answerКак вы строите real-time voice agent с latency <500ms?
…Это позволяет перекрывать задержки: [[Вики/attack success rate\|ASR]] уже отправляет части текста в [[Вики/GPT-4o\|LLM]], пока [[Вики…
answerКак быть, если одно и то же изображение встречается в документах с разными подписями?
…Подпись может быть краткой или развёрнутой, содержать контекст документа. - Контекст изображения — совокупность подписи, окружающего текста, метаданных (дата, автор, источник). В…
answerКак работает модели типа Kosmos-2 (grounding объектов на изображении)?
…на объекты с координатами. - [[Вики/Task\|Задача]] [[Вики/generation\|генерация]] текста с вставленными `` токенами. - **[[Вики/Loss\|Loss]]:** стандартный [[Вики…
answerКак вы парсите сложные PDF с таблицами и графиками (не просто текст)?
…сначала детекция таблиц через [[Вики/Table Transformer\|TATR]], затем [[Вики/retrieval\|извлечение]] текста из ячеек с помощью [[Вики/Tesseract OCR…
answerКак работает temperature sampling и как он влияет на качество при разных значениях?
…T = 0.6–0.8. - **Для креативных задач (сторителлинг, [[Вики/generation\|генерация]] идей)**: T = 0.9–1.2. - **Для агентов…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сгенерировать synthetic датасет для RAG
…Технологический стек | Компонент | Инструменты | Назначение | |-----------|-------------|------------| | Генерация вопросов | `langchain`, `openai` / `transformers` | Вызов LLM для создания вопросов по чанкам | | Обработка документов | `langchain…
wikiAnswer relevance
…Как вы делаете synthetic eval (генерация тестовых вопросов по документам)|687. Как вы делаете synthetic eval (генерация тестовых вопросов по…
answerКак вы делаете synthetic data generation для редких классов в датасете?
…Как вы делаете synthetic data generation для редких классов в датасете? ## Краткий тезис [[Вики/synthetic data generation\|Синтетическая генерация данных…
answerКакие типы задач требуют Level 3 представления (scientific formalization)?
…физическое моделирование, многокомпонентное [[Вики/planning\|планирование]] с временными ограничениями, [[Вики/generation\|генерация]] научных гипотез и любые сценарии, где [[Вики/AI…
answerКак вы масштабируете синтетическую генерацию до миллионов примеров (cost optimization)?
…дистилляция (model|большая модель → маленькая), батч-генерация (группировка запросов), выбор дешёвых моделей (GPT-3.5 Turbo или self-hosted open…
answerКак проектировать Airflow DAG для RAG ingestion?
…Chunk — разбиение длинного текста на небольшие фрагменты (чанки) заданной стратегии (фиксированный размер, chunking|семантическое разбиение). 4. Embed — преобразование чанков в…
answerКак вы генерируете synthetic данные для instruction tuning?
…из текста (например, статьи) генерируется [[Вики/Prompt engineering\|инструкция]], на которую этот текст является ответом. - [[Вики/generation\|Генерация]] на основе…
answerКак делать feature engineering для RAG (кроме текста)?
…Как делать feature engineering для RAG (кроме текста)? ## Краткий тезис [[Вики/Feature engineering\|Feature engineering]] для [[Вики/гибридный поиск\|RAG…
answerКак работает мультимодальная эвалюация (MEGA, MM-Vet) для VL-моделей?
…Они решают задачи: [[Вики/VQA\|VQA]] ([[Вики/VQA\|Visual Question Answering]]), [[Вики/image captioning\|captioning]] ([[Вики/generation\|генерация]] подписи к…
answerКак вы делаете RAG для изображений (image retrieval without text)?
…Как вы делаете RAG для изображений (image retrieval without text)? ## Краткий тезис RAG для изображений без текста строится на мультимодальных…
answerЧто такое Audio RAG (RAG для аудиофайлов)?
…Дополнительно можно применить **[[Вики/reranking\|re-ranking]]** (например, [[Вики/reranking\|cross-encoder]]) для уточнения. ### 2.5 Генерация ответа [[Вики/LLM…
answerЧто такое curriculum learning for synthetic data (обучение на легких данных сначала)?
…2. [[Вики/generation\|Генерация]] лёгких примеров — используем [[Вики/LLM\|LLM]] с промптом: «Сгенерируй простой вопрос с однозначным ответом по теме…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать diffusion LLM (PLANNER)
…обучения | Weights & Biases или TensorBoard | Отслеживание loss, perplexity, ускорения | | Генерация текста | Python + собственный инференс-скрипт | Замер latency и качества | | Визуализация…
answerКак вы тестируете RAG-систему на новых документах без реальных пользователей?
…вопросно-ответная генерация через LLM Берём [[Вики/chunking\|фрагменты]] ([[Вики/chunking\|чанки]]) документа и просим [[Вики/LLM\|LLM]] сгенерировать вопросы…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Agentic RAG с саморефлексией
…Цель задачи Построить агентный [[Вики/RAG\|RAG-пайплайн]], в котором [[Вики/generation\|генерация]] ответа дополняется встроенным модулем самооценки [[Вики/accuracy…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с памятью через векторную БД
…transformers (all-MiniLM-L6-v2) | Преобразование текста в векторы | | LLM | OpenAI API / Ollama | Генерация ответов и синтез памяти | | Клиент Qdrant…
answerКак вы оптимизируете embedding генерацию для большого количества документов?
…генерация эмбеддингов для миллионов документов ### Что такое embedding генерация? **[[Вики/embedding\|Embedding]] ([[Вики/embedding\|эмбеддинг]])** — это [[Вики/embedding\|вектор]] чисел…
answerКак вы делаете synthetic eval (генерация тестовых вопросов по документам)?
…Для каждого вопроса дай ответ цитатой из текста». 2. [[Вики/question generation\|Генерация вопросов]] — [[Вики/GPT-4o\|LLM]] выдает пары…
answerКак бы вы добавили "отмену" (cancellation) для длительных LLM операций?
…Cancellation (отмена) в контексте LLM [[Вики/Cancellation\|Cancellation]] — это механизм, позволяющий пользователю или системе прервать выполнение длительной операции генерации текста…
answerЧто такое Chain-of-Thought без токенов (latent CoT) и как это реализовано?
…генерирует [[Вики/sequence\|последовательность]] промежуточных шагов рассуждения в виде текста перед финальным ответом. [[Вики/Chain-of-Thought\|CoT]] значительно улучшает…
answerЧто такое Wave Decoding и чем отличается от стандартного авторегрессивного?
…Что такое Wave Decoding и чем отличается от стандартного авторегрессивного? ## Краткий тезис Wave Decoding — это неавторегрессивный метод генерации текста, предложенный…
answerЧто такое «схема» (schema) в контексте LLM и как она связана с языковым представлением?
…Используй аналогию с библиотекой.» Второй вариант активирует схему «экспертное объяснение с аналогией», а первый — общую схему «[[Вики/generation\|генерация]] текста…