Поиск
- wikiasynchronous preprocessing
# asynchronous preprocessing ## Определение Метод подготовки данных на CPU параллельно с работой GPU, снижающий простои и повышающий общую производительность инференса. ## Где…
- wikiInput sanitization
# Input sanitization ## Определение Техника фильтрации или трансформации входа (экранирование, нормализация, удаление токенов) для нейтрализации вредоносных инструкций и защиты от jailbreak…
- wikiDeskew
# Deskew ## Определение Предобработка изображений для устранения перекоса (неправильного угла наклона) перед распознаванием текста (OCR). ## Где встречается - [[272. Как вы проверяете…
- wikinormalization
# normalization ## Определение Приведение данных к единому формату или масштабу (например, деление на √d_k в attention) для улучшения обучения, стабильности…
- answerЧто такое jailbreak taxonomy (OOD, refusal suppression, role-play, перевод)?
…Сравнительная таблица категорий jailbreak | Категория | Суть | Пример | Сложность защиты | |-----------|------|--------|------------------| | OOD | Нестандартный формат запроса | Base64, ASCII-арт | Средняя (требуется предобработка) | | Refusal…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить back-translation для аугментации
…112 | Работа с Hugging Face pipelines для инференса | | 167 | Предобработка текста для NLP | | 203 | Сравнение моделей EN-RU: Helsinki-NLP…
- answerКак вы защищаете LLM от градиентных атак (white-box jailbreak)?
…Input Preprocessing (предобработка входа) Идея перед подачей в [[Вики/model\|модель]] модифицировать входной текст так, чтобы разрушить [[Вики/Adversarial generation…
- answerКак вы измеряете и оптимизируете TTFT (Time To First Token) и TPOT (Time Per Output Token)?
…Включает: - Сетевую задержку - Обработку запроса на сервере ([[Вики/normalization\|предобработка]], [[Вики/tokenizer\|токенизация]]) - [[Вики/prefill stage\|Prefill]] — [[Вики/forward pass…
- answerКак работает OCR для RAG? Недостатки и когда его недостаточно?
…Основные этапы работы [[Вики/Tesseract OCR\|OCR]] 1. [[Вики/normalization\|Предобработка]] изображения — бинаризация, устранение шума, [[Вики/safety alignment\|выравнивание]]. 2…
- answerКак работает embedding poisoning для RAG и как защититься?
…Рекомендации по архитектуре защиты (митагационная стратегия) | Уровень | Защита | Реализация | |---------|--------|------------| | [[Вики/indexing\|Индексация]] | Предобработка документа | Удаление скрытого текста, проверка на sus…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить cross-encoder reranking
…Содержание Notebook - Импорты и конфигурация (пути, модели) - Загрузка и предобработка датасета - Bi-encoder: эмбеддинги + FAISS - Cross-encoder: реранжирование - Расчёт метрик…
- answerКак вы дедуплицируете документы перед индексацией в RAG?
…Как вы выбираете стратегию chunking для RAG]] | Предобработка документов | | [[510. Какие метаданные вы добавляете к чанкам]] | Обогащение индекса | | [[511. Как…
- answerЧто такое Audio RAG (RAG для аудиофайлов)?
…Сравнение с текстовым RAG | Характеристика | Текстовый RAG | Audio RAG | |----------------|---------------|-----------| | Исходные данные | Текст (PDF, HTML) | Аудио (MP3, WAV) | | Предобработка | Чанкинг текста…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать LLM-as-Judge с калибровкой
…разработки | | Работа с датасетами | `datasets` (Hugging Face) | Загрузка и предобработка данных | | LLM API / inference | `openai`, `anthropic`, или `transformers` + `vLLM` | Запуск…
- answerКак вы защищаете LLM от градиентных атак (white-box jailbreak)?
…Input Preprocessing (предобработка входа) Набор методов фильтрации и трансформации запроса до того, как он попадёт в LLM. Основные приёмы: - Нормализация…
- answerКак работает Whisper архитектурно для ASR (Automatic Speech Recognition)?
…каждый шаг decoder «смотрит» на все выходы encoder | --- ## 2. Предобработка аудио: log-Mel спектрограмма Входное аудио (моно, 16 кГц) сначала…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить архитектуры на reasoning задачах (Mamba vs Transformer vs RWKV vs Hyena)
…Унификация входа | | Датасеты | `datasets` от Hugging Face | Загрузка и предобработка reasoning‑задач | | Метрики | `evaluate` и самописные скрипты | Accuracy, F1 (для…
- answerКак вы обрабатываете большие таблицы в RAG (500+ строк)?
…Инструменты и библиотеки | Инструмент | Роль | Пример использования | |------------|------|---------------------| | [[Вики/pandas\|Pandas]] | Чтение, фильтрация, предобработка таблиц | `df = pd.read_csv('sales.csv…
- answerКакая у вас была самая сложная проблема при fine-tuning и как вы её решили?
…на тренировке падает; генерация шаблонных ответов | | Неверная архитектура или предобработка | Ошибки в токенизации, attention mask, loss функции | Модель не сходится…
- answerКак вы делаете image captioning для RAG (извлечение описания изображения)?
…2. [[Вики/normalization\|Предобработка]]: изменение размера (обычно 224x224 или 336x336), [[Вики/normalization\|нормализация]]. 3. Прогон через [[Вики/VL-LLM\|VL…
- answerКак вы комбинируете текстовый и визуальный поиск (early fusion vs late fusion)?
…Как вы обрабатываете изображения в RAG-пайплайне?\|117]] | Предобработка и извлечение фич из изображений | | [[118. Как вы выбираете модель для…
- answerКак вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)?
…Решение: [[Вики/normalization\|предобработка]] ([[Вики/decode\|декодирование]]) или [[Вики/training\|обучение]] детектора на закодированных данных. - [[Вики/Adversarial attacks\|Adversarial attacks…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать curriculum learning
…обучение модели | | Работа с данными | torchvision, numpy | Загрузка и предобработка датасетов, сортировка | | Визуализация | matplotlib, seaborn | Графики сходимости, loss/accuracy | | Эксперименты…