Knowledge Portal

aivaro.ru

  • Оглавление
  • Вопросы
  • Практика
  • Вики
  • Тесты
  • Поиск
✈Telegram @AetSeidhe
RUEN中文
…
Оглавление/Вики/stake

stake

stake

Определение

Финансовый залог для создания агента, альтернатива proof-of-work в Sybil защите.

Где встречается

  • 721. Как предотвращать collusion (сговор) между агентами в децентрализованной системе
  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминagentssecurity

Ссылки

  • Как предотвращать collusion (сговор) между агентами в децентрализованной системе?

Обратные ссылки (100)

  • EAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?
  • OPQ (Optimized Product Quantization) vs PQ — в чем разница?
  • ScaNN (Google) vs HNSW — сравнение для больших масштабов (>100M векторов)?
  • Альтернативы LLM-as-Judge — назовите 3 и их ограничения?
  • Индекс терминов
  • Как LLM используются для code generation с формальной верификацией (Dafny, Lean)?
  • Как fine-tune модель для следования сложным инструкциям?
  • Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)?
  • Как вы A/B тестируете две версии промпта в production?
  • Как вы валидируете, что DSPy-оптимизация действительно улучшила модель, а не просто переобучилась под метрику?
  • Как вы выбираете ANN алгоритм под ваш use case (volume, dimensionality, budget)?
  • Как вы выбираете между увеличением тест-тайм компьютинга и использованием большей модели?
  • Как вы выбираете параметры HNSW (M, ef_construction, ef_search) под свои данные?
  • Как вы делаете A/B тест между двумя агентами с разными архитектурами (ReAct vs Plan-and-Execute)?
  • Как вы делаете A/B тестирование двух моделей в production?
  • Как вы делаете agent с human values alignment (Constitutional AI для агентов)?
  • Как вы делаете canary analysis для новой LLM модели?
  • Как вы делаете data quality monitoring для RAG корпуса?
  • Как вы делаете load shedding при перегрузке LLM сервера?
  • Как вы делаете load testing для LLM endpoint? Какие метрики ключевые?
  • Как вы делаете model selection для long context (какая модель лучше держит 100k+)?
  • Как вы делаете retrieval для структурированных данных (SQL, Knowledge Graph)?
  • Как вы делаете synthetic eval (генерация тестовых вопросов по документам)?
  • Как вы детектируете data contamination в evaluation датасетах?
  • Как вы диагностируете, что проблема в memory bandwidth, а не в compute?
  • Как вы измеряете diversity синтетического датасета?
  • Как вы измеряете inter-rater reliability для human evaluation?
  • Как вы измеряете quality RLHF модели вне стандартных бенчмарков (MT-Bench)?
  • Как вы измеряете recall@k для ANN индекса и какой порог acceptable?
  • Как вы измеряете «cost of reasoning» у агента (не только токены, но и шаги, время, ошибки)?
  • Как вы измеряете дрейф модели (model drift) для LLM?
  • Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)?
  • Как вы измеряете эффективность speculative decoding?
  • Как вы калибруете LLM-судью под человеческие оценки?
  • Как вы калибруете retrieval confidence для threshold-based filtering?
  • Как вы калибруете вероятности LLM для classification задач?
  • Как вы мониторите дрейф данных (data drift) для RAG?
  • Как вы обеспечиваете, что RAG работает с документами на русском и английском одновременно?
  • Как вы обеспечиваете, чтобы ответы LLM были консистентными для одинаковых вопросов?
  • Как вы обнаруживаете contamination (пересечение synthetic данных с тестовыми)?
  • Как вы обрабатываете corrupted или empty документы в ingestion пайплайне?
  • Как вы обрабатываете corrupted или empty документы в ingestion пайплайне?
  • Как вы определяете SLO и SLA для LLM сервиса?
  • Как вы организуете CI/CD для RAG-пайплайна?
  • Как вы отслеживаете data drift для распределения запросов к RAG?
  • Как вы оцениваете alignment модели с человеческими ценностями без gold standard?
  • Как вы оцениваете alignment модели с человеческими ценностями без gold standard?
  • Как вы оцениваете faithfulness RAG-ответа в production автоматически?
  • Как вы оцениваете faithfulness без ground truth (если нет правильного ответа)?
  • Как вы оцениваете качество language representation для задачи?
  • Как вы оцениваете качество retrieval'а в RAG-системе?
  • Как вы оцениваете качество генерации в RAG? Назовите 3 ключевые метрики.
  • Как вы оцениваете качество после fine-tuning?
  • Как вы оцениваете креативность LLM в production?
  • Как вы оцениваете мультимодальную модель на hallucinations (POPE, MMHal-Bench)?
  • Как вы оцениваете мультимодальную модель на галлюцинации (POPE, MMHal-Bench)?
  • Как вы предотвращаете tool overuse (когда агент вызывает API даже когда не нужно)?
  • Как вы предотвращаете галлюцинации в production RAG системе?
  • Как вы представляете граф знаний из изображения для LLM?
  • Как вы проверяете качество parsing документов (PDF, DOCX) в production?
  • Как вы проверяете качество парсинга документов (PDF, DOCX) в production?
  • Как вы проверяете, что LLM правильно «понял» диаграмму, а не просто угадал?
  • Как вы проектируете canary deployment для LLM модели?
  • Как вы проектируете dynamic benchmark (меняющийся со временем)?
  • Как вы проектируете language representation для сложной задачи?
  • Как вы проектируете red teaming evaluation для jailbreak устойчивости?
  • Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
  • Как вы профилируете GPU utilization для LLM serving (nsys, ncu, nvprof)?
  • Как вы сравниваете две модели, если у них разная latency (быстрая неточная vs медленная точная)?
  • Как вы тестируете long-context capability модели (бенчмарки: RULER, Needle in a Haystack)?
  • Как вы тестируете видение модели (vision-language) на пропущенные детали?
  • Как вы уменьшаете latency RAG-системы (время ответа)?
  • Как вы управляете качеством разметки (label quality) для DPO датасетов?
  • Как вы управляете качеством разметки (label quality) для DPO датасетов?
  • Как вы управляете разными версиями промптов в production?
  • Как вы фильтруете документы по метаданным в векторной БД?
  • Как делать canary deployment для промптов (5% трафика)?
  • Как делать evaluation для long-context RAG (>100k токенов)?
  • Как детектировать reward hacking в RLHF?
  • Как детектировать «объяснительно-решенческую декомпозицию»?
  • Как защитить RAG от poisoning (вредоносные документы в базе знаний)?
  • Как избежать benchmark contamination (когда модель видела тестовые данные)?
  • Как измерять faithfulness для long-form ответов (1000+ токенов)?
  • Как измерять «коэффициент полезного делегирования» (сколько задач решено правильно)?
  • Как оценивать multi-step agents (не только final answer)?
  • Как предотвращать collusion (сговор) между агентами в децентрализованной системе?
  • Как проектировать data contracts для RAG пайплайна?
  • Как проектировать delegation с учётом человеческого фактора (усталость, занятость)?
  • Как проектировать reputation system для агентов в децентрализованной системе?
  • Как проектировать аукцион для allocation вычислительных ресурсов между агентами?
  • Как работает LLM-as-judge и почему он biased?
  • Как работает Mixture of Experts (MoE) внутри LLM (спарсинг активации)?
  • Как работает RAPTOR (иерархическое суммирование для длинного контекста)?
  • Как работает adversarial example для embedding моделей (атака на retrieval)?
  • Как работает dropout и зачем он нужен в LLM? (regularization)
  • Как работает membership inference атака на LLM?
  • Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?
  • Как работает scheduler в vLLM? Какие алгоритмы выбора запросов?
  • Как работает speculative decoding с несколькими draft моделями?
  • Как работает speculative decoding? Как выбрать draft модель?