Поиск
- wikionline-метрики
…Как вы оцениваете качество retrieval'а в RAG-системе]] - [[383. Что такое error budget для AI качества и как его…
- wikiburn rate
# burn rate ## Определение Скорость расходования error budget, служащая ранним сигналом проблем с качеством AI. Позволяет отслеживать, как быстро исчерпывается запас…
- wikiContext relevance
…Как вы оцениваете качество retrieval'а в RAG-системе|5. Как вы оцениваете качество retrieval'а в RAG-системе]] - [[16…
- wikioffline-метрики
…Как вы оцениваете качество retrieval'а в RAG-системе]] - [[383. Что такое error budget для AI качества и как его…
- wikihierarchical SLO
…что позволяет контролировать качество выполнения на каждом шаге. ## Где встречается - [[383. Что такое error budget для AI качества и как…
- wikiTool Call Accuracy
…Как вы оцениваете качество language representation для задачи]] - [[383. Что такое error budget для AI качества и как его считать…
- wikiMonotonicity
…ухудшает качество ответа. Используется в property-based testing агентов. ## Где встречается - [[730. Что такое LLM для symbolic regression (AI Feynman…
- wikipdfplumber
…Как вы проверяете качество parsing документов (PDF, DOCX) в production|272. Как вы проверяете качество parsing документов (PDF, DOCX) в…
- wikiPR
…Как вы проверяете качество parsing документов (PDF, DOCX) в production|272. Как вы проверяете качество parsing документов (PDF, DOCX) в…
- answerЧто такое RLAIF (RL from AI Feedback) и как он масштабируется?
…Качество AI-фидбека [[Вики/GPT-4o\|LLM]] может ошибаться в оценке, особенно в сложных или спорных случаях. Это приводит к…
- wikiAnswer quality
…Что такое error budget для AI качества и как его считать|383. Что такое error budget для AI качества и…
- wikiactive learning
…Как вы управляете качеством разметки (label quality) для DPO датасетов|261. Как вы управляете качеством разметки (label quality) для DPO…
- wikiRAGAS
…Не требует LLM-судьи и позволяет оценивать качество поиска и генерации. ## Где встречается - [[5. Как вы оцениваете качество retrieval'а…
- wikiJamba
…AI21 Labs, чередующая Mamba-слои (State Space Models), attention-слои и MoE (Mixture of Experts). Сочетает эффективность SSM с качеством…
- wikiFaithfulness
…Как вы оцениваете качество retrieval'а в RAG-системе|5. Как вы оцениваете качество retrieval'а в RAG-системе]] - [[16…
- wikiA/B testing
…Как вы оцениваете качество после fine-tuning|25. Как вы оцениваете качество после fine-tuning]] - [[61. Как вы разворачиваете LLM…
- answerЧто такое mechanism design для multi-agent systems и как применить к LLM-агентам?
…В контексте LLM-агентов [[Вики/mechanism design\|mechanism design]] позволяет строить [[Вики/Multi-agent workflows\|многоагентные системы]], где [[Вики/AI…
- wikitext-embedding-3-small
…Как вы оцениваете качество language representation для задачи|192. Как вы оцениваете качество language representation для задачи]] - [[200. Что вы…
- answerЧто такое SLI (Service Level Indicators) для AI системы и как их собирать?
…Quality (качество ответов) Качество — самая сложная категория SLI для AI. Основные метрики: - **Faithfulness (фактологичность)**: насколько ответ соответствует предоставленному контексту (без…
- answerКак вы проектируете ETL пайплайн для 1M документов/день в RAG систему?
…зрелость, большое сообщество | Airflow: тяжеловесен для простых задач | | Эмбеддинг модель | OpenAI, Cohere, Sentence-Transformers | OpenAI: качество; Sentence-Transformers: бесплатно | OpenAI…
- answerЧто такое Constitutional AI и как оно применяется в производстве?
…Ограничения и риски Constitutional AI - Качество конституции: если принципы противоречивы или неполны, модель может вести себя непредсказуемо. - AI-судья может…
- wikiDynamic routing
…основе типа запроса, нагрузки или компромисса между стоимостью и качеством; используется для балансировки и оптимизации cost-quality trade-off. ## Где…
- wikirobustness
# robustness ## Определение Свойство модели или агента сохранять качество и корректное поведение при adversarial атаках, включая jailbreak и состязательные входные данные…
- answerКак сравнивать cost efficiency разных LLM провайдеров?
…Artificial Analysis - [artificialanalysis.ai](https://artificialanalysis.ai/) - Агрегирует цены, latency, качество (MMLU, HumanEval) от разных провайдеров в реальном времени. - Удобная…
- answerЧто такое diffusion backends для генерации изображений (Stable Diffusion, Flux) и как их вызывать из агента?
…В контексте [[Вики/Agentic RAG\|Agentic RAG]] [[Вики/AI agents\|агент]] может вызывать такие backends как внешний инструмент, передавая [[Вики…
- answerКак проектировать Airflow DAG для RAG ingestion?
…Альтернативы Airflow и их сравнение | Инструмент | Плюсы для RAG ingestion | Минусы | |------------|-------------------------|--------| | [[Вики/Airflow\|Airflow]] | Зрелый, широко распространён, много интеграций (Spark…
- wikiDirect Preference Optimization
…Что такое RLAIF (RL from AI Feedback) и как он масштабируется|330. Что такое RLAIF (RL from AI Feedback) и…
- wikiBERT
…Как вы оцениваете качество language representation для задачи]] - [[324. Что такое TVM (Apache TVM) и зачем он нужен для AI…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить RLAIF для генерации предпочтений
…Оценить качество промпта на 10 примерах из [[Вики/Answer relevance\|ground truth]]: сравнить результаты AI-фидбека с human. Если [[Вики…
- answerЧто такое error budget для AI качества и как его считать?
…качество | faithfulness = 0.93 | | Error budget | Допустимая доля ошибок | 5% (1 - 0.95) | --- ## 2. Зачем нужен error budget для AI…
- wikiMixtral
…Experts (MoE) от Mistral AI, активирующих только часть параметров на каждом токене, что сочетает высокое качество с эффективностью. ## Где встречается…
- wikiSLA
…Как вы проектируем on-call ротацию для AI сервиса|390. Как вы проектируем on-call ротацию для AI сервиса]] - [[416…
- answerКакие инструменты для агентской эвалюации вы используете?
…ли [[Вики/AI agents\|агент]], не превышает ли [[Вики/max_iterations\|лимит шагов]]. - [[Вики/Answer quality\|Качество финального ответа]] — [[Вики…
- answerКак работает diffusion backends для генерации изображений в AI-агентах?
…Архитектура интеграции diffusion backend в AI-агента Типичный [[Вики/agent\|AI-агент]] (на базе [[Вики/LLM\|LLM]]) работает по циклу…
- answerКак вы строите real-time voice agent с latency <500ms?
…faster-whisper (tiny), Llama 3.2 1B, Piper (low quality). [[Вики/trade-off\|Trade-off]] Качество распознавания и генерации может…
- answerКак вы снижаете стоимость LLM в production на 50%+?
…Высокое качество, широкая поддержка | | Groq | Llama 3 70B | $0.59 (бесплатный tier) | Низкая задержка, бесплатный лимит | | Together.ai | Mixtral 8x22B…
- answerOpenAI vs Anthropic vs Groq vs Self-hosted — что выбираете?
…Ключевые особенности: **[[Вики/Safetysecurity\|безопасность]]** ([[Вики/Constitutional AI\|constitutional AI]]), контекст до 200K токенов, высокая [[Вики/No hallucination\|faithfulness]]. [[Вики…
- answerКак предотвращать collusion (сговор) между агентами в децентрализованной системе?
…без защиты ([[Вики/AI agents\|агенты]] свободно копируют ответы) и с защитой. Сравнить долю сговора, среднее качество ответов, количество ложных…
- wikiPrometheus
…Как вы проверяете качество parsing документов (PDF, DOCX) в production|272. Как вы проверяете качество parsing документов (PDF, DOCX) в…
- answerКак вы проектируете «планировщика» (planner) для Agentic RAG?
…1, "tool": "search", "params": {"query": "latest AI trends 2025"}, "depends_on": [] }, { "step_id": 2, "tool": "search", "params": {"query": "AI impact…
- answerКак в Harness Engineering реализована эвалюация и дрейф (evaluation & drift)?
…кода или промпта не ухудшает качество агента. --- ## 1. Термины: Evaluation и Drift в контексте AI-агентов **[[Вики/Evaluation\|Evaluation]] ([[Вики…
- wikiLLM
…Как вы оцениваете качество retrieval'а в RAG-системе|5. Как вы оцениваете качество retrieval'а в RAG-системе]] - [[8…
- wikiGrafana
…Как вы проверяете качество parsing документов (PDF, DOCX) в production|272. Как вы проверяете качество parsing документов (PDF, DOCX) в…
- answerЧто такое meta-evaluation бенчмарков (оценка оценки)?
…Как вы проектируете red teaming evaluation для jailbreak устойчивости\|497]] | Как вы оцениваете качество работы AI-агента? | | [[500. Как вы…
- answerКак проектировать ETL vs ELT для RAG?
…не нужно разворачивать [[Вики/cluster\|кластер]] [[Вики/Spark\|Spark]], достаточно одного Python-скрипта на [[Вики/Airflow\|Airflow]]. --- ## 4. Когда ELT…
- answerНазовите 7 production failure modes для agentic AI систем по PAEF (Pandey, 2026)?
…Разработать [[Вики/simulator\|симулятор]] [[Вики/Agentic AI\|agentic AI]] системы (например, агента для поиска и [[Вики/summarization\|summarization]] новостей) и…
- answerКак спроектировать агента, который может самоисправляться (self-correction)?
…качеством и вычислительными затратами. --- ## 1. Термин: Self-correction (самоисправление) [[Вики/self-correction\|Self-correction]] — это процесс, в котором [[Вики/AI…
- wikiWeights & Biases
…Как вы оцениваете качество language representation для задачи|192. Как вы оцениваете качество language representation для задачи]] - [[272. Как вы…
- answerЧто такое adversarial fine-tuning для защиты от jailbreak?
…Adversarial fine-tuning можно рассматривать как частный случай DPO. - [[Вики/Constitutional AI\|Constitutional AI]]: модель обучается следовать набору правил (конституции…
- answerЧто такое multi-agent debate и как он улучшает качество ответов?
…Почему это работает? Механизмы улучшения Debate улучшает качество ответов благодаря нескольким когнитивным механизмам: - Диверсификация гипотез — разные [[Вики/AI agents\|агенты…