Knowledge Portal

aivaro.ru

  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Тесты
  • Поиск
✈Telegram @AetSeidhe
RUEN中文
…
Оглавление/Вики/constraints

constraints

constraints

Определение

Правила, задающие обязательные поля, диапазоны и запреты, которые снижают вероятность ошибок генерации.

Где встречается

  • 189. Как вы проектируете language representation для сложной задачи
  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминarchitecture

Ссылки

  • Как вы проектируете language representation для сложной задачи?

Обратные ссылки (100)

  • Альтернативы LLM-as-Judge — назовите 3 и их ограничения?
  • В чем проблема «natural language bottleneck» для LLM?
  • В чем разница между Workflow и Guidance в теории harness-engineering?
  • Индекс терминов
  • Как LLM применяются для protein folding (AlphaFold 3, ESM3)? Архитектура и отличия?
  • Как speculative decoding взаимодействует с KV cache?
  • Как speculative decoding ускоряет inference? (детально)
  • Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)?
  • Как вы анализируете embedding geometry для отладки retrieval качества?
  • Как вы генерируете synthetic данные для instruction tuning?
  • Как вы генерируете synthetic данные для instruction tuning?
  • Как вы дедуплицируете документы перед индексацией в RAG?
  • Как вы делаете agent robustness к adversarial instructions (jailbreak через агента)?
  • Как вы делаете agent с bounded rationality (ограниченные вычислительные ресурсы)?
  • Как вы делаете data quality monitoring для RAG корпуса?
  • Как вы делаете long context для code generation (модель должна видеть весь репозиторий)?
  • Как вы делаете streaming в production с учетом network limitations?
  • Как вы делаете длинный контекст для RAG (100k+ токенов в контексте)?
  • Как вы детектируете data contamination в evaluation датасетах?
  • Как вы защищаете LLM от prompt injection через RAG (когда документ содержит инструкцию)?
  • Как вы защищаете LLM от prompt injection через изображения (VL-модели)?
  • Как вы защищаете LLM от градиентных атак (white-box jailbreak)?
  • Как вы защищаете RAG от data poisoning через неявные инструкции (subtle injections)?
  • Как вы защищаете multi-agent систему от вредоносного агента?
  • Как вы измеряете inter-rater reliability для human evaluation?
  • Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)?
  • Как вы измеряете reasoning degradation с ростом контекста? (curse of length)
  • Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов?
  • Как вы обнаруживаете contamination (пересечение synthetic данных с тестовыми)?
  • Как вы обнаруживаете многошаговые jailbreak-атаки (через 10-20 сообщений)?
  • Как вы обновляете embedding модель без полной переиндексации?
  • Как вы обрабатываете запросы, на которые нет ответа в документах?
  • Как вы объединяете несколько LoRA адаптеров для разных задач?
  • Как вы ограничиваете бесконечный цикл агента?
  • Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)?
  • Как вы оцениваете качество синтетических данных? (Self-consistency, LLM-as-Judge)
  • Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)?
  • Как вы переключаете агента между инструментами (function calling) с разными сигнатурами?
  • Как вы проверяете качество parsing документов (PDF, DOCX) в production?
  • Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал?
  • Как вы проверяете, что модель действительно использует структуру представления, а не игнорирует ее?
  • Как вы проводите red teaming LLM-приложения? Назовите 3 техники.
  • Как вы проектируете language representation для сложной задачи?
  • Как вы проектируете red teaming evaluation для jailbreak устойчивости?
  • Как вы проектируете red teaming evaluation для jailbreak устойчивости?
  • Как вы проектируете промпт для агента с инструментами?
  • Как вы проектируете систему для real-time video understanding (поток с камеры)?
  • Как вы реализуете streaming в production с учетом network limitations?
  • Как вы сравниваете разные компиляторы (TensorRT, IREE, XLA) для вашей модели?
  • Как вы тестируете long-context capability модели (бенчмарки: RULER, Needle in a Haystack)?
  • Как выполнять requirement on transparency (статья 13 EU AI Act) для LLM?
  • Как делать sandboxing для agent tools (изоляция выполнения)?
  • Как защититься от prompt stealing (кража системного промпта)?
  • Как избежать evaluation overfitting (когда модель учится на тесте)?
  • Как изменилась роль инженера с приходом Harness Engineering?
  • Как масштабировать vLLM на несколько GPU/нод?
  • Как моделировать экономику агентов с ограниченными бюджетами на API вызовы?
  • Как обеспечивать exactly-once delivery между агентами?
  • Как предотвращать collusion (сговор) между агентами в децентрализованной системе?
  • Как проводить safety case для LLM системы (аналог safety case в авиации)?
  • Как проектировать delegation с учётом человеческого фактора (усталость, занятость)?
  • Как проектировать schema registry для метаданных RAG?
  • Как работает LLM fingerprinting (идентификация модели по ответам)?
  • Как работает OCR для RAG? Недостатки и когда его недостаточно?
  • Как работает QLoRA (Quantized LoRA) для training?
  • Как работает RoPE (Rotary Position Embedding) и чем лучше абсолютных позиций?
  • Как работает Tensor Core microarchitecture (WGMMA, MMA инструкции) в H100?
  • Как работает Toolformer-like обучение для агентов (self-supervised tool use)?
  • Как работает Torch Compile (torch.compile) и в чем его ограничения для LLM?
  • Как работает attention математически (Q, K, V) и как вычислительная сложность масштабируется?
  • Как работает distributed optimizer в PyTorch (torch.distributed.optim)?
  • Как работает membership inference атака на LLM?
  • Как работает model inversion атака (восстановление training данных)?
  • Как работает model stealing attack (экстракция модели через API)?
  • Как работает prefix caching и prompt caching у провайдеров?
  • Как работает prompt leakage (кража системного промпта) и как защититься?
  • Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?
  • Как работает sequence parallelism в контексте LLM?
  • Как работает speculative decoding на уровне логитов, а не токенов?
  • Как работает speculative decoding с несколькими draft моделями?
  • Как работает synthetic data для RLHF (предпочтения)?
  • Как работает tensor parallelism с FP8 в vLLM?
  • Как работает whisper.cpp для локального ASR с low latency?
  • Как работает извлечение знаний (knowledge editing) из LLM без переобучения?
  • Как работает многогранный (faceted) поиск в RAG с фильтрами?
  • Как работают CUDA graphs и когда их использовать?
  • Как работают browser agents и computer use agents (Claude Computer Use)?
  • Как работают современные tokenizers (BPE, Unigram, SentencePiece) и их ограничения?
  • Как сделать агента самовосстанавливающимся (self-healing)?
  • Как спроектировать систему, где LLM должна работать с конфиденциальными данными (медицина, финансы)?
  • Как тестировать агентов на недетерминированность?
  • Какие 3 книги/курса вы рекомендуете по production LLM?
  • Какие LLM для русского языка вы используете?
  • Какие failure modes уникальны для multi-agent систем (vs single agent)?
  • Какие есть методы ускорения тест-тайм компьютинга? (KV-cache, speculative decoding)
  • Какие инструменты для агентской эвалюации вы используете?
  • Какие ограничения у language representation design?
  • Какие оптимизаторы (teleprompters) в DSPy вы использовали и когда? BootstrapFewShot, MIPRO, COPRO?
  • Какие типы задач требуют Level 3 представления (scientific formalization)?
  • Какую LLM вы выберете для "быстрых" (<200ms) простых задач классификации?