Knowledge Portal

aivaro.ru

  • 目录
  • 问题
  • 实践
  • 百科
  • 测试
  • 搜索
✈Telegram @AetSeidhe
RUEN中文
…
目录/百科/tests

中文翻译暂不可用,显示俄语原文。

tests

tests

Определение

Процедуры проверки корректности работы LLM после фикса, включающие юнит-тесты, интеграционные тесты и валидацию выходов модели.

Где встречается

  • 800+ вопросов

Навигация

  • Индекс терминов
  • Индекс разборов
  • Оглавление

Теги

wikiтерминevaluation

Обратные ссылки (100)

  • CrewAI vs AutoGen vs LangGraph — сравнение?
  • EAGLE-3 vs Medusa-2 vs Hydra: сравнение speculative decoding методов?
  • Индекс терминов
  • Как автоматизировать test generation для агента?
  • Как в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)?
  • Как вы дебажите агента, который делает неправильные действия?
  • Как вы делаете blue-green deployment для RAG системы с zero downtime?
  • Как вы делаете disaster recovery с RPO <1 минута?
  • Как вы делаете incremental ingestion для часто меняющихся документов?
  • Как вы делаете load testing для LLM endpoint? Какие метрики ключевые?
  • Как вы делаете multi-region failover с RTO <5 минут?
  • Как вы делаете online RL для агентов (self-improvement loops)?
  • Как вы делаете schema evolution для метаданных документов в RAG?
  • Как вы обрабатываете corrupted или empty документы в ingestion пайплайне?
  • Как вы обрабатываете смену форматов документов (legacy + новые форматы)?
  • Как вы оцениваете креативность LLM в production?
  • Как вы передаете состояние (state) между шагами агента?
  • Как вы проверяете, что RLHF не сломал базовые способности модели?
  • Как вы проверяете, что fine-tuned модель не сломала базовые способности?
  • Как вы проверяете, что новая версия модели не сломала старые кейсы?
  • Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)?
  • Как вы проектируете промпты, которые работают с разными моделями?
  • Как вы проектируете систему для real-time video understanding (поток с камеры)?
  • Как вы решаете проблему “я знаю, что ответ есть в документах, но retrieval не находит”?
  • Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)?
  • Как вы тестируете агентов? (сложно из-за стохастичности)
  • Как вы тестируете видение модели (vision-language) на пропущенные детали?
  • Как вы храните историю изменений промптов (prompt lineage)?
  • Как делать adversarial evals для RAG (проверка на устойчивость)?
  • Как делать evaluation для long-context RAG (>100k токенов)?
  • Как делать property-based testing для агентов?
  • Как делать rollback промпта (auto-rollback при деградации метрик)?
  • Как измерять «коэффициент полезного делегирования» (сколько задач решено правильно)?
  • Как интегрировать тестирование агентов в CI/CD?
  • Как код как язык представления улучшает рассуждение LLM?
  • Как обеспечивать backward compatibility при изменении протокола?
  • Как работает rainbow teaming (комбинация red + blue + purple teaming для LLM)?
  • Как работает tree search (MCTS) для LLM агентов?
  • Как тестировать delegation paths (интеграционное тестирование multi-agent)?
  • Как тестировать multi-turn диалоги агента?
  • Как тестировать инструменты агента (tool testing изолированно)?
  • Как тестировать промпты на регрессии (prompt regression suite)?
  • Как управлять dependency между промптами (один промпт вызывает другой)?
  • Как управлять версиями промптов в production (best practices)?
  • Какие инструменты для агентской эвалюации вы используете?
  • Какие книги или ресурсы вы рекомендуете по Harness Engineering?
  • Какие паттерны multi-agent систем вы знаете?
  • Назовите 4 уровня языкового представления по Yang et al. (2026) и объясните разницу?
  • Назовите 7 production failure modes для agentic AI систем по PAEF (Pandey, 2026)?
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Multi-tenant RAG с изоляцией данных
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Агент с tree search (MCTS) для математической задачи
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Интегрировать тестирование в CI/CD
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать test plan для агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Написать тесты для меж-агентской коммуникации
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить AdmissionController для проверки прав агента перед вызовом tool
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить S3 consistency для RAG
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить SLA между агентами
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить backpressure в ingestion
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить load shedding при перегрузке в multi-tenant агентной системе
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить prompt as code
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить recurrent memory для long context
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить regression test suite для AI-агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить regression testing промптов
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить sharding для petabyte embeddings
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить templating (Jinja2) для переменных {context} и {question}
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить token budget для агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить version tagging для промптов (latest, stable, canary)
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить write-through cache
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настройка orchestration с помощью Temporal для 5 агентов с компенсацией
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Протестировать delegation paths
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Развернуть Prompt Registry
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализация partial harnessing для AI-агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать Bloom filter для retrieval
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать Tool System с JSON Schema
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать blue-green deployment для RAG
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать cache stampede защиту с singleflight
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать chaos testing для агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать conversational repair (disambiguation) в ассистенте
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать dead letter queue для сообщений
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать dense retrieval failure detection с fallback на BM25
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать dependency management промптов
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать fallback-цепь (Агент А → Агент Б → человек)
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать handshake при соединении агентов
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать prompt diff
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать prompt lifecycle
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать prompt linting
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать query drift детекцию
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать rollback delegation
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать sharded cache на 10+ нод
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать simulation testing для AI-агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать streaming с SSE в FastAPI для меж-агентной коммуникации
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать synthetic eval для агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать test generation для агента
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать tool testing изолированно
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Реализовать иерархическое делегирование
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Собрать agentic mesh из 3 агентов
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Спроектировать escalation system (AI → Human при low confidence)
  • ТЕХНИЧЕСКОЕ ЗАДАНИЕ: Сравнить распределенные FS (Lustre, BeeGFS, JuiceFS)
  • Что такое RLAIF (RL from AI Feedback) и как он масштабируется?
  • Что такое Recurrent Depth в контексте LLM и зачем это нужно?