English translation is not available yet. Showing Russian content.

Что такое model cards и system cards и как их составлять?

Краткий тезис

Model cards и system cards — это стандартизированные документы, описывающие поведение, ограничения и безопасность AI-компонентов. Model cards фокусируются на отдельной модели (например, LLM или эмбеддер), а system cards — на целой AI-системе, включающей модель, API, RAG-пайплайн и агентов. Их составление обязательно для прозрачности, доверия и соответствия регуляторам (AI Act, Executive Order). Правильно составленная карточка помогает разработчикам и пользователям понять, где система сильна, а где может дать сбой.


1. Термины: Model Card и System Card

Model card (карточка модели) — впервые предложена Google в 2018 году (статья “Model Cards for Model Reporting”). Это одностраничный (или многостраничный) документ, который описывает:

  • Intended use (целевое использование) — для каких задач модель создана (чат, RAG, генерация кода).
  • Performance (производительность) — метрики на стандартных бенчмарках (accuracy, F1, BLEU, fairness, robustness).
  • Limitations (ограничения) — известные слабые места (галлюцинации, bias, неспособность обрабатывать длинные контексты).
  • Ethical considerations (этические соображения) — потенциальный вред (генерация опасного контента, дискриминация).

System card (карточка системы) — более новый формат (активно продвигается с 2024 года, например, Anthropic и OpenAI публикуют system cards для своих продуктов). Описывает всю AI-систему:

  • Architecture diagram (диаграмма архитектуры) — все компоненты: модель, RAG, агенты, guardrails, фильтры.
  • Safety mitigations (меры безопасности) — как система защищена от misuse (content moderation, rate limiting, adversarial filtering).
  • Evaluation results (результаты оценки) — end-to-end метрики (faithfulness, answer relevance, latency, cost).

Ключевое отличие: model card — про модель, system card — про систему (модель + инфраструктура + пайплайн). В контексте Agentic RAG system card обязательна, так как система состоит из множества взаимодействующих частей.


2. Зачем нужны model cards и system cards?

2.1 Прозрачность и доверие

  • Пользователи и заказчики хотят знать, на что способна система, а где она может ошибаться.
  • Разработчики фиксируют известные ограничения, чтобы не создавать ложных ожиданий.

2.2 Соответствие регуляторам

  • EU AI Act требует документации для систем высокого риска.
  • US Executive Order on AI (2023) рекомендует публиковать model cards.
  • Без карточек сложно пройти аудит или получить сертификацию.

2.3 Улучшение качества

  • Процесс составления заставляет команду систематизировать тесты, выявлять слепые зоны и фиксировать метрики.
  • Карточки служат живым документом: при каждом обновлении модели или пайплайна их нужно обновлять.

2.4 Управление рисками

  • В system card обязательно включают раздел Safety mitigations — это помогает предотвратить инциденты (например, генерацию вредного контента через RAG).

3. Структура Model Card (по Google 2018)

РазделЧто включитьПример для LLM
Model DetailsНазвание, версия, тип (LLM, эмбеддер), дата релиза, ссылка на весаgpt-4o-mini, версия 2024-07, transformer decoder
Intended UseЦелевые задачи, домен, языки, аудиторияЧат-бот для поддержки клиентов на русском и английском
FactorsФакторы, влияющие на производительность (язык, демография, длина запроса)Производительность падает при запросах > 8K токенов
MetricsМетрики качества и fairnessAccuracy на MMLU: 0.87, Gender bias: 0.02 (разница в точности между мужскими и женскими именами)
Evaluation DataДатасеты для оценки (train/test split, источники)MMLU, HellaSwag, собственный датасет из 5000 диалогов
Training DataИсточники, размер, фильтрацияCommon Crawl, книги, Wikipedia (фильтр NSFW)
Quantitative AnalysesГрафики распределения метрик по подгруппамAccuracy по языкам: EN 0.89, RU 0.82, ES 0.85
Ethical ConsiderationsПотенциальный вред, bias, конфиденциальностьМодель может генерировать стереотипные ответы о профессиях; не использовать для медицинских диагнозов
Caveats and RecommendationsОграничения, рекомендации по использованиюНе подходит для принятия юридических решений; рекомендуется human-in-the-loop

4. Структура System Card (современный подход)

System card обычно включает model card для каждой используемой модели, но добавляет системный уровень.

РазделЧто включитьПример для Agentic RAG
System OverviewНазначение, архитектура (диаграмма), версияRAG-агент для ответов на вопросы по документации компании
ComponentsСписок всех моделей, баз данных, API, агентовLLM (gpt-4o), эмбеддер (text-embedding-3-small), векторная БД (Pinecone), агент-планировщик (ReAct)
Data FlowКак запрос проходит через систему, где происходит retrieval, генерация, проверкаПользователь → агент → retrieval → LLM → guardrail → ответ
Safety MitigationsФильтры, guardrails, rate limiting, мониторингContent moderation на входе и выходе; фильтр PII; ограничение 100 запросов/мин
Evaluation ResultsEnd-to-end метрики (faithfulness, answer relevance, latency, cost)Faithfulness: 0.92, Avg latency: 1.2 с, Cost per query: $0.003
Known LimitationsОшибки, которые система может допускатьГаллюцинации при отсутствии релевантных документов; не обрабатывает запросы на языках, отличных от EN/RU
Red Teaming ResultsРезультаты атак (jailbreak, prompt injection, data poisoning)95% атак отражены guardrails; 5% требуют доработки
Version HistoryДата, изменения, авторv1.0 (2024-10-01) — первый релиз; v1.1 (2024-11-15) — добавлен фильтр PII

5. Как составлять model card и system card: пошаговый процесс

5.1 Сбор информации

  • Для model card: возьмите результаты тестирования на бенчмарках, fairness-анализ, список известных failure modes.
  • Для system card: опишите архитектуру, проведите end-to-end тесты, red teaming, зафиксируйте все safety-механизмы.

5.2 Использование шаблонов

  • Model card: шаблон от Hugging Face (README.md в репозитории модели). Можно автоматически генерировать из конфига.
  • System card: пока нет единого стандарта, но можно взять за основу шаблоны от Anthropic (Claude system card) или OpenAI (GPT-4 system card).

5.3 Заполнение разделов

  • Пишите конкретно, избегайте общих фраз. Вместо «модель может ошибаться» → «модель ошибается в 12% случаев на вопросах по математике 9-го класса».
  • Указывайте числа и ссылки на тесты.
  • Для ethical considerations используйте чек-лист: bias по полу/расе/возрасту, конфиденциальность, вредный контент, misuse.

5.4 Рецензирование и обновление

  • Карточки должны проверять юристы, этики, инженеры.
  • Обновляйте при каждом значительном изменении (новая версия модели, новый компонент, новый датасет).

5.5 Публикация

  • Model card — в репозитории модели (Hugging Face, GitHub).
  • System card — в документации продукта, на сайте, в репозитории системы.

6. Примеры реальных карточек

  • Model card: BERT model card от Hugging Face — содержит все разделы.
  • System card: GPT-4 System Card от OpenAI — 60+ страниц, включает red teaming, safety mitigations, evaluation.
  • Claude Model Card от Anthropic — подробно описывает ограничения и этические соображения.

7. Инструменты для автоматизации

  • Hugging Face Hub — автоматически генерирует model card из метаданных (tags, metrics, datasets).
  • Weights & Biases — можно прикреплять model card к run'ам.
  • MLflow — модель registry с возможностью хранения model card.
  • LangSmith / LangFuse — для system card можно экспортировать трассировку и метрики.

8. Связь с Agentic RAG

В Agentic RAG система состоит из:

  • LLM (генератор)
  • Эмбеддер (retrieval)
  • Векторная БД
  • Агент (планировщик, executor)
  • Guardrails (фильтры)

System card для Agentic RAG должна описывать:

  • Как агент принимает решения (ReAct, Plan-and-Execute).
  • Какие guardrails стоят на каждом шаге (на входе, после retrieval, перед генерацией, на выходе).
  • Как измеряется faithfulness (например, через LLM-as-judge).
  • Какие метрики latency и cost в зависимости от сложности запроса.

Без system card невозможно гарантировать безопасность и предсказуемость такого сложного пайплайна.


9. Пет-проект для закрепления

Задача: Создать model card и system card для простого RAG-агента, отвечающего на вопросы по документации небольшого проекта (например, по библиотеке FastAPI).

Инструменты:

  • Python, LangChain, FAISS (векторная БД), OpenAI API.
  • Hugging Face Hub (для публикации model card).
  • Markdown + шаблон.

Шаги:

  1. Разверните RAG-агент: эмбеддер (text-embedding-3-small), LLM (gpt-4o-mini), FAISS с чанками документации FastAPI.
  2. Проведите тестирование:
  3. Составьте model card для эмбеддера и LLM (можно взять готовые с Hugging Face и дополнить).
  4. Составьте system card для всего пайплайна:
    • Диаграмма архитектуры (Mermaid).
    • Safety mitigations: фильтр PII, rate limiting, guardrail на выходе (проверка на вредный контент).
    • Evaluation results: таблица метрик.
  5. Опубликуйте в виде GitHub-репозитория с README, содержащим обе карточки.

Ожидаемый результат: Два документа (model_card.md и system_card.md), которые можно показать на собеседовании как пример понимания стандартов документирования AI-систем.


10. Связь с другими вопросами

ВопросТема
730Что такое Agentic RAG и чем отличается от классического RAG?
731Как проектировать multi-agent системы?
732Какие метрики качества для Agentic RAG?
733Как обеспечить безопасность в Agentic RAG (guardrails, red teaming)?
735Как проводить A/B тестирование AI-агентов?
736Какие регуляторные требования (AI Act) влияют на разработку RAG?

Навигация