Что такое model cards и system cards и как их составлять?

Q: 1. Термины: Model Card и System Card

**[[Вики/Model cards\|Model card]]** ([[Вики/Model cards\|карточка модели]]) — впервые предложена Google в 2018 году (статья “[[Вики/Model cards\|Model Cards]] for [[Вики/embedding-модель\|Model]] Reporting”). Это одностраничный (или многостраничный) документ, который описывает: - Intended use (целевое использование) — для каких задач [[Вики/model\|модель]] создана (чат, [[Вики/гибридный поиск\|RAG]], [[Вики/code generation\|генерация кода]]).

Q: 2.1 Прозрачность и доверие

- Пользователи и заказчики хотят знать, на что способна система, а где она может ошибаться. - Разработчики фиксируют известные ограничения, чтобы не создавать ложных ожиданий.

Q: 2.2 Соответствие регуляторам

- [[Вики/EU AI Act\|EU AI Act]] требует документации для систем высокого риска. - US Executive Order on AI (2023) рекомендует публиковать model cards. - Без карточек сложно пройти аудит или получить сертификацию.

Q: 2.3 Улучшение качества

- Процесс составления заставляет команду систематизировать тесты, выявлять слепые зоны и фиксировать метрики. - Карточки служат живым документом: при каждом обновлении модели или пайплайна их нужно обновлять.

Q: 2.4 Управление рисками

- В system card обязательно включают раздел Safety mitigations — это помогает предотвратить инциденты (например, генерацию вредного контента через RAG). ---

Q: 3. Структура Model Card (по Google 2018)

| Раздел | Что включить | Пример для LLM | |--------|--------------|----------------| | Model Details | Название, версия, тип (LLM, эмбеддер), дата релиза, ссылка на веса | `gpt-4o-mini`, версия 2024-07, transformer decoder | | **Intended Use** | Целевые задачи, домен, языки, аудитория | Чат-бот для поддержки клиентов на русском и английском |

Q: 5.1 Сбор информации

- Для model card: возьмите результаты тестирования на бенчмарках, fairness-анализ, список известных failure modes. - Для system card: опишите архитектуру, проведите end-to-end тесты, red teaming, зафиксируйте все safety-механизмы.

Краткий тезис

Model cards и system cards — это стандартизированные документы, описывающие поведение, ограничения и безопасность AI-компонентов. Model cards фокусируются на отдельной модели (например, LLM или эмбеддер), а system cards — на целой AI-системе, включающей модель, API, RAG-пайплайн и агентов. Их составление обязательно для прозрачности, доверия и соответствия регуляторам (AI Act, Executive Order). Правильно составленная карточка помогает разработчикам и пользователям понять, где система сильна, а где может дать сбой.

1. Термины: Model Card и System Card

Model card (карточка модели) — впервые предложена Google в 2018 году (статья “Model Cards for Model Reporting”). Это одностраничный (или многостраничный) документ, который описывает:

Intended use (целевое использование) — для каких задач модель создана (чат, RAG, генерация кода).
Performance (производительность) — метрики на стандартных бенчмарках (accuracy, F1, BLEU, fairness, robustness).
Limitations (ограничения) — известные слабые места (галлюцинации, bias, неспособность обрабатывать длинные контексты).
Ethical considerations (этические соображения) — потенциальный вред (генерация опасного контента, дискриминация).

System card (карточка системы) — более новый формат (активно продвигается с 2024 года, например, Anthropic и OpenAI публикуют system cards для своих продуктов). Описывает всю AI-систему:

Architecture diagram (диаграмма архитектуры) — все компоненты: модель, RAG, агенты, guardrails, фильтры.
Safety mitigations (меры безопасности) — как система защищена от misuse (content moderation, rate limiting, adversarial filtering).
Evaluation results (результаты оценки) — end-to-end метрики (faithfulness, answer relevance, latency, cost).

Ключевое отличие: model card — про модель, system card — про систему (модель + инфраструктура + пайплайн). В контексте Agentic RAG system card обязательна, так как система состоит из множества взаимодействующих частей.

2. Зачем нужны model cards и system cards?

2.1 Прозрачность и доверие

Пользователи и заказчики хотят знать, на что способна система, а где она может ошибаться.
Разработчики фиксируют известные ограничения, чтобы не создавать ложных ожиданий.

2.2 Соответствие регуляторам

EU AI Act требует документации для систем высокого риска.
US Executive Order on AI (2023) рекомендует публиковать model cards.
Без карточек сложно пройти аудит или получить сертификацию.

2.3 Улучшение качества

Процесс составления заставляет команду систематизировать тесты, выявлять слепые зоны и фиксировать метрики.
Карточки служат живым документом: при каждом обновлении модели или пайплайна их нужно обновлять.

2.4 Управление рисками

В system card обязательно включают раздел Safety mitigations — это помогает предотвратить инциденты (например, генерацию вредного контента через RAG).

3. Структура Model Card (по Google 2018)

Раздел	Что включить	Пример для LLM
Model Details	Название, версия, тип (LLM, эмбеддер), дата релиза, ссылка на веса	`gpt-4o-mini`, версия 2024-07, transformer decoder
Intended Use	Целевые задачи, домен, языки, аудитория	Чат-бот для поддержки клиентов на русском и английском
Factors	Факторы, влияющие на производительность (язык, демография, длина запроса)	Производительность падает при запросах > 8K токенов
Metrics	Метрики качества и fairness	Accuracy на MMLU: 0.87, Gender bias: 0.02 (разница в точности между мужскими и женскими именами)
Evaluation Data	Датасеты для оценки (train/test split, источники)	MMLU, HellaSwag, собственный датасет из 5000 диалогов
Training Data	Источники, размер, фильтрация	Common Crawl, книги, Wikipedia (фильтр NSFW)
Quantitative Analyses	Графики распределения метрик по подгруппам	Accuracy по языкам: EN 0.89, RU 0.82, ES 0.85
Ethical Considerations	Потенциальный вред, bias, конфиденциальность	Модель может генерировать стереотипные ответы о профессиях; не использовать для медицинских диагнозов
Caveats and Recommendations	Ограничения, рекомендации по использованию	Не подходит для принятия юридических решений; рекомендуется human-in-the-loop

4. Структура System Card (современный подход)

System card обычно включает model card для каждой используемой модели, но добавляет системный уровень.

Раздел	Что включить	Пример для Agentic RAG
System Overview	Назначение, архитектура (диаграмма), версия	RAG-агент для ответов на вопросы по документации компании
Components	Список всех моделей, баз данных, API, агентов	LLM (gpt-4o), эмбеддер (text-embedding-3-small), векторная БД (Pinecone), агент-планировщик (ReAct)
Data Flow	Как запрос проходит через систему, где происходит retrieval, генерация, проверка	Пользователь → агент → retrieval → LLM → guardrail → ответ
Safety Mitigations	Фильтры, guardrails, rate limiting, мониторинг	Content moderation на входе и выходе; фильтр PII; ограничение 100 запросов/мин
Evaluation Results	End-to-end метрики (faithfulness, answer relevance, latency, cost)	Faithfulness: 0.92, Avg latency: 1.2 с, Cost per query: $0.003
Known Limitations	Ошибки, которые система может допускать	Галлюцинации при отсутствии релевантных документов; не обрабатывает запросы на языках, отличных от EN/RU
Red Teaming Results	Результаты атак (jailbreak, prompt injection, data poisoning)	95% атак отражены guardrails; 5% требуют доработки
Version History	Дата, изменения, автор	v1.0 (2024-10-01) — первый релиз; v1.1 (2024-11-15) — добавлен фильтр PII

5. Как составлять model card и system card: пошаговый процесс

5.1 Сбор информации

Для model card: возьмите результаты тестирования на бенчмарках, fairness-анализ, список известных failure modes.
Для system card: опишите архитектуру, проведите end-to-end тесты, red teaming, зафиксируйте все safety-механизмы.

5.2 Использование шаблонов

Model card: шаблон от Hugging Face (README.md в репозитории модели). Можно автоматически генерировать из конфига.
System card: пока нет единого стандарта, но можно взять за основу шаблоны от Anthropic (Claude system card) или OpenAI (GPT-4 system card).

5.3 Заполнение разделов

Пишите конкретно, избегайте общих фраз. Вместо «модель может ошибаться» → «модель ошибается в 12% случаев на вопросах по математике 9-го класса».
Указывайте числа и ссылки на тесты.
Для ethical considerations используйте чек-лист: bias по полу/расе/возрасту, конфиденциальность, вредный контент, misuse.

5.4 Рецензирование и обновление

Карточки должны проверять юристы, этики, инженеры.
Обновляйте при каждом значительном изменении (новая версия модели, новый компонент, новый датасет).

5.5 Публикация

Model card — в репозитории модели (Hugging Face, GitHub).
System card — в документации продукта, на сайте, в репозитории системы.

6. Примеры реальных карточек

Model card: BERT model card от Hugging Face — содержит все разделы.
System card: GPT-4 System Card от OpenAI — 60+ страниц, включает red teaming, safety mitigations, evaluation.
Claude Model Card от Anthropic — подробно описывает ограничения и этические соображения.

7. Инструменты для автоматизации

Hugging Face Hub — автоматически генерирует model card из метаданных (tags, metrics, datasets).
Weights & Biases — можно прикреплять model card к run'ам.
MLflow — модель registry с возможностью хранения model card.
LangSmith / LangFuse — для system card можно экспортировать трассировку и метрики.

8. Связь с Agentic RAG

В Agentic RAG система состоит из:

LLM (генератор)
Эмбеддер (retrieval)
Векторная БД
Агент (планировщик, executor)
Guardrails (фильтры)

System card для Agentic RAG должна описывать:

Как агент принимает решения (ReAct, Plan-and-Execute).
Какие guardrails стоят на каждом шаге (на входе, после retrieval, перед генерацией, на выходе).
Как измеряется faithfulness (например, через LLM-as-judge).
Какие метрики latency и cost в зависимости от сложности запроса.

Без system card невозможно гарантировать безопасность и предсказуемость такого сложного пайплайна.

9. Пет-проект для закрепления

Задача: Создать model card и system card для простого RAG-агента, отвечающего на вопросы по документации небольшого проекта (например, по библиотеке FastAPI).

Инструменты:

Python, LangChain, FAISS (векторная БД), OpenAI API.
Hugging Face Hub (для публикации model card).
Markdown + шаблон.

Шаги:

Разверните RAG-агент: эмбеддер (text-embedding-3-small), LLM (gpt-4o-mini), FAISS с чанками документации FastAPI.
Проведите тестирование:
- Offline: hit rate@5, MRR, recall@5 на 50 вопросах.
- Online: faithfulness (через LLM-as-judge), answer relevance, latency.
Составьте model card для эмбеддера и LLM (можно взять готовые с Hugging Face и дополнить).
Составьте system card для всего пайплайна:
- Диаграмма архитектуры (Mermaid).
- Safety mitigations: фильтр PII, rate limiting, guardrail на выходе (проверка на вредный контент).
- Evaluation results: таблица метрик.
Опубликуйте в виде GitHub-репозитория с README, содержащим обе карточки.

Ожидаемый результат: Два документа (model_card.md и system_card.md), которые можно показать на собеседовании как пример понимания стандартов документирования AI-систем.

10. Связь с другими вопросами

Вопрос	Тема
730	Что такое Agentic RAG и чем отличается от классического RAG?
731	Как проектировать multi-agent системы?
732	Какие метрики качества для Agentic RAG?
733	Как обеспечить безопасность в Agentic RAG (guardrails, red teaming)?
735	Как проводить A/B тестирование AI-агентов?
736	Какие регуляторные требования (AI Act) влияют на разработку RAG?

Краткий тезис

1. Термины: Model Card и System Card

Intended use (целевое использование) — для каких задач модель создана (чат, RAG, генерация кода).
Performance (производительность) — метрики на стандартных бенчмарках (accuracy, F1, BLEU, fairness, robustness).
Limitations (ограничения) — известные слабые места (галлюцинации, bias, неспособность обрабатывать длинные контексты).
Ethical considerations (этические соображения) — потенциальный вред (генерация опасного контента, дискриминация).

Architecture diagram (диаграмма архитектуры) — все компоненты: модель, RAG, агенты, guardrails, фильтры.
Safety mitigations (меры безопасности) — как система защищена от misuse (content moderation, rate limiting, adversarial filtering).
Evaluation results (результаты оценки) — end-to-end метрики (faithfulness, answer relevance, latency, cost).

2. Зачем нужны model cards и system cards?

2.1 Прозрачность и доверие

Пользователи и заказчики хотят знать, на что способна система, а где она может ошибаться.
Разработчики фиксируют известные ограничения, чтобы не создавать ложных ожиданий.

2.2 Соответствие регуляторам

EU AI Act требует документации для систем высокого риска.
US Executive Order on AI (2023) рекомендует публиковать model cards.
Без карточек сложно пройти аудит или получить сертификацию.

2.3 Улучшение качества

Процесс составления заставляет команду систематизировать тесты, выявлять слепые зоны и фиксировать метрики.
Карточки служат живым документом: при каждом обновлении модели или пайплайна их нужно обновлять.

2.4 Управление рисками

В system card обязательно включают раздел Safety mitigations — это помогает предотвратить инциденты (например, генерацию вредного контента через RAG).

3. Структура Model Card (по Google 2018)

Раздел	Что включить	Пример для LLM
Model Details	Название, версия, тип (LLM, эмбеддер), дата релиза, ссылка на веса	`gpt-4o-mini`, версия 2024-07, transformer decoder
Intended Use	Целевые задачи, домен, языки, аудитория	Чат-бот для поддержки клиентов на русском и английском
Factors	Факторы, влияющие на производительность (язык, демография, длина запроса)	Производительность падает при запросах > 8K токенов
Metrics	Метрики качества и fairness	Accuracy на MMLU: 0.87, Gender bias: 0.02 (разница в точности между мужскими и женскими именами)
Evaluation Data	Датасеты для оценки (train/test split, источники)	MMLU, HellaSwag, собственный датасет из 5000 диалогов
Training Data	Источники, размер, фильтрация	Common Crawl, книги, Wikipedia (фильтр NSFW)
Quantitative Analyses	Графики распределения метрик по подгруппам	Accuracy по языкам: EN 0.89, RU 0.82, ES 0.85
Ethical Considerations	Потенциальный вред, bias, конфиденциальность	Модель может генерировать стереотипные ответы о профессиях; не использовать для медицинских диагнозов
Caveats and Recommendations	Ограничения, рекомендации по использованию	Не подходит для принятия юридических решений; рекомендуется human-in-the-loop

4. Структура System Card (современный подход)

System card обычно включает model card для каждой используемой модели, но добавляет системный уровень.

Раздел	Что включить	Пример для Agentic RAG
System Overview	Назначение, архитектура (диаграмма), версия	RAG-агент для ответов на вопросы по документации компании
Components	Список всех моделей, баз данных, API, агентов	LLM (gpt-4o), эмбеддер (text-embedding-3-small), векторная БД (Pinecone), агент-планировщик (ReAct)
Data Flow	Как запрос проходит через систему, где происходит retrieval, генерация, проверка	Пользователь → агент → retrieval → LLM → guardrail → ответ
Safety Mitigations	Фильтры, guardrails, rate limiting, мониторинг	Content moderation на входе и выходе; фильтр PII; ограничение 100 запросов/мин
Evaluation Results	End-to-end метрики (faithfulness, answer relevance, latency, cost)	Faithfulness: 0.92, Avg latency: 1.2 с, Cost per query: $0.003
Known Limitations	Ошибки, которые система может допускать	Галлюцинации при отсутствии релевантных документов; не обрабатывает запросы на языках, отличных от EN/RU
Red Teaming Results	Результаты атак (jailbreak, prompt injection, data poisoning)	95% атак отражены guardrails; 5% требуют доработки
Version History	Дата, изменения, автор	v1.0 (2024-10-01) — первый релиз; v1.1 (2024-11-15) — добавлен фильтр PII

5. Как составлять model card и system card: пошаговый процесс

5.1 Сбор информации

Для model card: возьмите результаты тестирования на бенчмарках, fairness-анализ, список известных failure modes.
Для system card: опишите архитектуру, проведите end-to-end тесты, red teaming, зафиксируйте все safety-механизмы.

5.2 Использование шаблонов

Model card: шаблон от Hugging Face (README.md в репозитории модели). Можно автоматически генерировать из конфига.
System card: пока нет единого стандарта, но можно взять за основу шаблоны от Anthropic (Claude system card) или OpenAI (GPT-4 system card).

5.3 Заполнение разделов

Пишите конкретно, избегайте общих фраз. Вместо «модель может ошибаться» → «модель ошибается в 12% случаев на вопросах по математике 9-го класса».
Указывайте числа и ссылки на тесты.
Для ethical considerations используйте чек-лист: bias по полу/расе/возрасту, конфиденциальность, вредный контент, misuse.

5.4 Рецензирование и обновление

Карточки должны проверять юристы, этики, инженеры.
Обновляйте при каждом значительном изменении (новая версия модели, новый компонент, новый датасет).

5.5 Публикация

Model card — в репозитории модели (Hugging Face, GitHub).
System card — в документации продукта, на сайте, в репозитории системы.

6. Примеры реальных карточек

Model card: BERT model card от Hugging Face — содержит все разделы.
System card: GPT-4 System Card от OpenAI — 60+ страниц, включает red teaming, safety mitigations, evaluation.
Claude Model Card от Anthropic — подробно описывает ограничения и этические соображения.

7. Инструменты для автоматизации

Hugging Face Hub — автоматически генерирует model card из метаданных (tags, metrics, datasets).
Weights & Biases — можно прикреплять model card к run'ам.
MLflow — модель registry с возможностью хранения model card.
LangSmith / LangFuse — для system card можно экспортировать трассировку и метрики.

8. Связь с Agentic RAG

В Agentic RAG система состоит из:

LLM (генератор)
Эмбеддер (retrieval)
Векторная БД
Агент (планировщик, executor)
Guardrails (фильтры)

System card для Agentic RAG должна описывать:

Как агент принимает решения (ReAct, Plan-and-Execute).
Какие guardrails стоят на каждом шаге (на входе, после retrieval, перед генерацией, на выходе).
Как измеряется faithfulness (например, через LLM-as-judge).
Какие метрики latency и cost в зависимости от сложности запроса.

Без system card невозможно гарантировать безопасность и предсказуемость такого сложного пайплайна.

9. Пет-проект для закрепления

Инструменты:

Python, LangChain, FAISS (векторная БД), OpenAI API.
Hugging Face Hub (для публикации model card).
Markdown + шаблон.

Шаги:

Разверните RAG-агент: эмбеддер (text-embedding-3-small), LLM (gpt-4o-mini), FAISS с чанками документации FastAPI.
Проведите тестирование:
- Offline: hit rate@5, MRR, recall@5 на 50 вопросах.
- Online: faithfulness (через LLM-as-judge), answer relevance, latency.
Составьте model card для эмбеддера и LLM (можно взять готовые с Hugging Face и дополнить).
Составьте system card для всего пайплайна:
- Диаграмма архитектуры (Mermaid).
- Safety mitigations: фильтр PII, rate limiting, guardrail на выходе (проверка на вредный контент).
- Evaluation results: таблица метрик.
Опубликуйте в виде GitHub-репозитория с README, содержащим обе карточки.

10. Связь с другими вопросами

Вопрос	Тема
730	Что такое Agentic RAG и чем отличается от классического RAG?
731	Как проектировать multi-agent системы?
732	Какие метрики качества для Agentic RAG?
733	Как обеспечить безопасность в Agentic RAG (guardrails, red teaming)?
735	Как проводить A/B тестирование AI-агентов?
736	Какие регуляторные требования (AI Act) влияют на разработку RAG?

Что такое model cards и system cards и как их составлять?

Краткий тезис

1. Термины: Model Card и System Card

2. Зачем нужны model cards и system cards?

2.1 Прозрачность и доверие

2.2 Соответствие регуляторам

2.3 Улучшение качества

2.4 Управление рисками

3. Структура Model Card (по Google 2018)

4. Структура System Card (современный подход)

5. Как составлять model card и system card: пошаговый процесс

5.1 Сбор информации

5.2 Использование шаблонов

5.3 Заполнение разделов

5.4 Рецензирование и обновление

5.5 Публикация

6. Примеры реальных карточек

7. Инструменты для автоматизации

8. Связь с Agentic RAG

9. Пет-проект для закрепления

10. Связь с другими вопросами

Навигация

Что такое model cards и system cards и как их составлять?

Краткий тезис

1. Термины: Model Card и System Card

2. Зачем нужны model cards и system cards?

2.1 Прозрачность и доверие

2.2 Соответствие регуляторам

2.3 Улучшение качества

2.4 Управление рисками

3. Структура Model Card (по Google 2018)

4. Структура System Card (современный подход)

5. Как составлять model card и system card: пошаговый процесс

5.1 Сбор информации

5.2 Использование шаблонов

5.3 Заполнение разделов

5.4 Рецензирование и обновление

5.5 Публикация

6. Примеры реальных карточек

7. Инструменты для автоматизации

8. Связь с Agentic RAG

9. Пет-проект для закрепления

10. Связь с другими вопросами

Навигация