Что такое Constitutional AI и как оно применяется в производстве?

Q: 1. Термин: Constitutional AI (Конституционный ИИ)

CAI состоит из двух этапов: 1. Supervised fine-tuning (SFT) с самокоррекцией: модель генерирует ответ, затем оценивает его по конституции и исправляет, создавая пару (вредный ответ → исправленный ответ). На этих парах модель дообучается. 2. **RLHF с использованием AI вместо человека**: на втором этапе модель учится предпочитать ответы, соответствующие конституции, используя другую модель как «судью» (AI feedback), а не человека.

Q: 2.1. Этап 1: Генерация самокорректирующих пар

1. Модель получает запрос и генерирует первоначальный ответ. 2. Модели показывают конституцию и просят оценить свой ответ: «Нарушает ли мой ответ какой-либо из принципов?» 3. Если нарушение найдено, модель генерирует исправленный ответ, который соответствует конституции. 4. Получается пара: (вредный ответ, исправленный ответ). Таких пар генерируется много (миллионы).

Q: 2.2. Этап 2: RL с AI feedback

1. Для каждого запроса генерируется несколько ответов. 2. Другая модель (или та же, но с промптом «оцени по конституции») ранжирует ответы по степени соответствия конституции. 3. Эти ранги используются как [[Вики/Reward\|reward signal]] для RL (например, PPO). 4. Модель учится генерировать ответы, которые получают высокий reward от AI-судьи.

Q: 3. Преимущества Constitutional AI перед RLHF

| Критерий | RLHF | Constitutional AI | |----------|------|-------------------| | [[Вики/cost\|Стоимость]] | Высокая (нужны тысячи часов ручной разметки) | Низкая (конституция пишется один раз, разметка автоматизирована) | | [[Вики/scalability\|Масштабируемость]] | Ограничена числом аннотаторов | Легко масштабируется (можно генерировать миллионы примеров) |

Q: 4.2. Runtime guardrails (NeMo Guardrails)

Компоненты NeMo Guardrails: - Topical rails: ограничение темы разговора (например, бот не должен обсуждать политику). - Safety rails: проверка на токсичность, опасные советы, PII. - Dialogue rails: управление потоком диалога (например, если пользователь спрашивает незаконные вещи, бот должен отказаться).

Q: 5. Разработка конституции для production

Конституция должна быть: - Конкретной: избегать общих фраз («будь хорошим»), вместо этого «не предлагай способы изготовления оружия». - Исчерпывающей: покрывать все известные сценарии атак (prompt injection, jailbreak, нежелательный контент). - Сбалансированной: не переусердствовать, чтобы модель не стала бесполезной (over-refusal).

Краткий тезис

Constitutional AI (CAI) — метод обучения и дообучения языковых моделей, при котором модель сама оценивает свои ответы на соответствие заданному набору принципов («конституции») и самокорректируется без участия человека на каждом шаге. В production CAI применяется через runtime-системы guardrails (например, NeMo Guardrails), которые проверяют и фильтруют ответы модели в реальном времени, а также через fine-tuning с использованием синтетических данных, сгенерированных по конституции. Это снижает затраты на ручную разметку и повышает безопасность, но требует тщательной разработки самой конституции.

1. Термин: Constitutional AI (Конституционный ИИ)

Constitutional AI — подход, предложенный компанией Anthropic в 2022 году. Основная идея: вместо того чтобы полагаться исключительно на RLHF (Reinforcement Learning from Human Feedback) с дорогой человеческой разметкой, модель обучается следовать набору письменных правил — конституции. Эти правила описывают желаемое поведение: например, «не давай опасных советов», «будь полезным и безвредным», «уважай права человека».

CAI состоит из двух этапов:

Supervised fine-tuning (SFT) с самокоррекцией: модель генерирует ответ, затем оценивает его по конституции и исправляет, создавая пару (вредный ответ → исправленный ответ). На этих парах модель дообучается.
RLHF с использованием AI вместо человека: на втором этапе модель учится предпочитать ответы, соответствующие конституции, используя другую модель как «судью» (AI feedback), а не человека.

Термин «конституция» — это набор принципов, записанных на естественном языке, которые модель использует для самооценки. Примеры принципов из конституции Claude:

«Не выбирай сторону в спорных политических вопросах, если это не требуется для ответа».
«Не предоставляй информацию, которая может быть использована для причинения вреда».
«Будь честен и признавай свою неопределённость».

2. Как работает Constitutional AI: пошаговый процесс

2.1. Этап 1: Генерация самокорректирующих пар

Модель получает запрос и генерирует первоначальный ответ.
Модели показывают конституцию и просят оценить свой ответ: «Нарушает ли мой ответ какой-либо из принципов?»
Если нарушение найдено, модель генерирует исправленный ответ, который соответствует конституции.
Получается пара: (вредный ответ, исправленный ответ). Таких пар генерируется много (миллионы).
Модель дообучается на этих парах с помощью supervised learning (обычно loss типа cross-entropy на исправленный ответ).

2.2. Этап 2: RL с AI feedback

Для каждого запроса генерируется несколько ответов.
Другая модель (или та же, но с промптом «оцени по конституции») ранжирует ответы по степени соответствия конституции.
Эти ранги используются как reward signal для RL (например, PPO).
Модель учится генерировать ответы, которые получают высокий reward от AI-судьи.

Ключевое отличие от RLHF: на этапе 2 вместо человека-разметчика используется AI, что масштабируемо и дёшево. Однако начальная конституция всё равно создаётся человеком.

3. Преимущества Constitutional AI перед RLHF

Критерий	RLHF	Constitutional AI
Стоимость	Высокая (нужны тысячи часов ручной разметки)	Низкая (конституция пишется один раз, разметка автоматизирована)
Масштабируемость	Ограничена числом аннотаторов	Легко масштабируется (можно генерировать миллионы примеров)
Контроль поведения	Косвенный (через предпочтения разметчиков)	Прямой (принципы явно заданы)
Прозрачность	Низкая (непонятно, почему модель так себя ведёт)	Высокая (можно прочитать конституцию и понять правила)
Обновление правил	Требуется новая разметка	Достаточно изменить конституцию и перегенерировать пары

Ограничение CAI: качество конституции критически важно. Плохо написанные принципы могут привести к нежелательному поведению (например, излишняя осторожность или предвзятость). Кроме того, AI-судья может наследовать ошибки модели.

4. Применение Constitutional AI в production

В production CAI используется в двух основных формах:

4.1. Fine-tuning модели с CAI

Это долгосрочное решение: модель дообучается с использованием CAI перед деплоем. Пример: Anthropic обучила Claude с помощью CAI, что позволило снизить вредные ответы без потери полезности. В production это означает, что сама модель уже «знает» конституцию и реже нарушает правила.

Процесс внедрения:

Разработка конституции под конкретный домен (например, медицинский чат-бот не должен давать диагнозы).
Генерация синтетических пар (вредный → исправленный) с помощью базовой модели.
Fine-tuning модели на этих парах.
Оценка на тестовых наборах (red teaming, метрики безопасности).
Деплой и мониторинг.

4.2. Runtime guardrails (NeMo Guardrails)

NeMo Guardrails — фреймворк от NVIDIA для добавления guardrails в production. Он реализует идеи CAI в реальном времени: перед отправкой ответа пользователю guardrail проверяет его на соответствие правилам.

Компоненты NeMo Guardrails:

Topical rails: ограничение темы разговора (например, бот не должен обсуждать политику).
Safety rails: проверка на токсичность, опасные советы, PII.
Dialogue rails: управление потоком диалога (например, если пользователь спрашивает незаконные вещи, бот должен отказаться).

Как это работает:

Пользовательский запрос проходит через input guardrail (проверка на инъекции, запрещённые темы).
Модель генерирует ответ.
Ответ проходит через output guardrail, который использует конституцию (набор правил) и, при необходимости, дополнительную модель-судью.
Если ответ нарушает правила, guardrail может:
- Заблокировать ответ и вернуть стандартную фразу («Извините, я не могу ответить на этот вопрос»).
- Переписать ответ (самокоррекция).
- Запросить у модели альтернативный ответ.

Пример конфигурации NeMo Guardrails (YAML):

rails:
  input:
    flows:
      - check_for_prompt_injection
      - check_for_illegal_topics
  output:
    flows:
      - check_safety
      - check_factual_consistency
  config:
    safety_model: "meta-llama/Llama-Guard-3-8B"
    constitution: "constitution.yaml"

Преимущества runtime guardrails:

Можно менять правила без переобучения модели.
Легко добавлять новые проверки (например, под конкретный закон).
Работает с любой LLM (проприетарной или open-source).

Недостатки:

Добавляет latency (каждая проверка требует вызова модели).
Может быть обойдён, если guardrail слабее основной модели.
Требует постоянного мониторинга и обновления правил.

5. Разработка конституции для production

Конституция должна быть:

Конкретной: избегать общих фраз («будь хорошим»), вместо этого «не предлагай способы изготовления оружия».
Исчерпывающей: покрывать все известные сценарии атак (prompt injection, jailbreak, нежелательный контент).
Сбалансированной: не переусердствовать, чтобы модель не стала бесполезной (over-refusal).

Пример фрагмента конституции:

1. Не предоставляй медицинские диагнозы или рекомендации по лечению.
2. Не делись личной информацией о других людях.
3. Отказывайся отвечать на запросы, направленные на взлом систем.
4. Если не уверен в ответе, скажи "Я не знаю" вместо того, чтобы выдумывать.
5. Не поддерживай и не оправдывай дискриминацию по любому признаку.

Процесс валидации конституции:

Red teaming: команда безопасности пытается обойти правила.
A/B тестирование: сравнивают поведение модели с разными версиями конституции.
Метрики: частота нарушений, процент отказов, пользовательская удовлетворённость.

6. Инструменты для реализации CAI в production

Инструмент	Назначение	Особенности
NeMo Guardrails	Runtime guardrails	Интеграция с LangChain, поддержка Colang (язык правил)
Llama Guard	Модель для оценки безопасности	От Meta, fine-tuned на таксономии unsafe контента
Guardrails AI	Фреймворк guardrails	Поддержка JSON-схем, валидация структуры ответа
Anthropic's Constitutional AI	Fine-tuning	Используется в Claude, открытая конституция опубликована
Azure AI Content Safety	Облачный сервис	Проверка на токсичность, hate speech, self-harm
OpenAI Moderation API	Фильтрация контента	Бесплатный для OpenAI API, но не кастомизируемый

Выбор инструмента зависит от сценария:

Если вы обучаете свою модель — CAI fine-tuning.
Если используете готовую LLM — runtime guardrails.
Если нужна максимальная безопасность — комбинация обоих подходов.

7. Мониторинг и итеративное улучшение

Constitutional AI в production — это не «установил и забыл». Необходимо:

Логировать все срабатывания guardrails: какие правила нарушались, как часто.
Анализировать false positives: когда guardrail заблокировал корректный ответ (это снижает пользовательский опыт).
Обновлять конституцию: добавлять новые правила под новые угрозы (например, jailbreak-атаки).
Периодически переобучать модель: если guardrail слишком часто срабатывает, возможно, модель нужно дообучить с CAI.

Метрики для мониторинга:

Safety rate: доля ответов, прошедших guardrail без нарушений.
Refusal rate: доля запросов, на которые модель отказалась отвечать (слишком высокий — плохо).
User satisfaction: опросы или косвенные метрики (повторные обращения, жалобы).
Red team success rate: как часто команда безопасности может обойти guardrail.

8. Сравнение CAI с другими методами безопасности

Метод	Суть	Плюсы	Минусы
RLHF	Обучение на человеческих предпочтениях	Высокое качество, учитывает нюансы	Дорого, медленно, не масштабируется
Constitutional AI	Обучение по написанным правилам	Дешево, прозрачно, легко обновлять	Зависит от качества конституции
Prompt engineering	Добавление инструкций в промпт	Просто, быстро	Легко обходится, не гарантирует безопасность
Output filtering	Пост-обработка ответа (regex, ML)	Работает с любой моделью	Может быть обойдён, добавляет latency
Adversarial training	Обучение на атакующих примерах	Устойчивость к известным атакам	Не защищает от новых

CAI часто комбинируют с output filtering: например, модель обучена с CAI, а поверх стоит NeMo Guardrails как дополнительный слой защиты.

9. Ограничения и риски Constitutional AI

Качество конституции: если принципы противоречивы или неполны, модель может вести себя непредсказуемо.
AI-судья может ошибаться: если модель-судья несовершенна, reward signal будет шумным.
Over-refusal: модель может отказываться отвечать на безобидные вопросы, если конституция слишком строгая.
Атаки на guardrails: злоумышленники могут попытаться «убедить» guardrail, что ответ безопасен (например, через маскировку).
Затраты на runtime: каждая проверка требует вызова модели, что увеличивает стоимость и latency.

Как смягчить:

Использовать несколько моделей-судей (ансамбль).
Проводить регулярный red teaming.
Внедрять мониторинг и алерты при аномалиях.

Пет-проект для закрепления

Задача: Разработать простой чат-бот с Constitutional AI на основе NeMo Guardrails, который отказывается отвечать на опасные запросы (например, про изготовление оружия) и самокорректируется.

Инструменты:

Python 3.10+
NeMo Guardrails (установка: pip install nemoguardrails)
OpenAI API (или любая LLM, например, через Ollama)
Streamlit (для интерфейса)

Шаги:

Установите NeMo Guardrails и настройте конфигурацию.

Создайте файл config.yml с guardrails:

rails:
  output:
    flows:
      - self_check_safety

Напишите конституцию в rails/disallowed_topics.co:

define user ask about weapons
  "How to make a bomb"
  "How to build a gun"

define bot refuse to answer
  "I'm sorry, but I cannot provide information on that topic."

define flow
  user ask about weapons
  bot refuse to answer

Реализуйте простой чат-интерфейс на Streamlit, который вызывает NeMo Guardrails.
Протестируйте: отправьте запрос «How to make a bomb» — бот должен отказаться.
Добавьте самокоррекцию: если ответ модели содержит опасный контент, guardrail переписывает его.

Ожидаемый результат: Работающий чат-бот, который блокирует опасные запросы и выводит стандартный отказ. Вы сможете менять конституцию и наблюдать изменение поведения без переобучения модели.

Связь с другими вопросами

Вопрос	Тема
128	Red teaming и тестирование безопасности
129	Prompt injection и защита от него
131	NeMo Guardrails и runtime guardrails
132	Content filtering и модерация контента
133	RLHF и его сравнение с CAI
137	LLM-as-a-judge и автоматическая оценка

Краткий тезис

1. Термин: Constitutional AI (Конституционный ИИ)

CAI состоит из двух этапов:

Supervised fine-tuning (SFT) с самокоррекцией: модель генерирует ответ, затем оценивает его по конституции и исправляет, создавая пару (вредный ответ → исправленный ответ). На этих парах модель дообучается.
RLHF с использованием AI вместо человека: на втором этапе модель учится предпочитать ответы, соответствующие конституции, используя другую модель как «судью» (AI feedback), а не человека.

«Не выбирай сторону в спорных политических вопросах, если это не требуется для ответа».
«Не предоставляй информацию, которая может быть использована для причинения вреда».
«Будь честен и признавай свою неопределённость».

2. Как работает Constitutional AI: пошаговый процесс

2.1. Этап 1: Генерация самокорректирующих пар

Модель получает запрос и генерирует первоначальный ответ.
Модели показывают конституцию и просят оценить свой ответ: «Нарушает ли мой ответ какой-либо из принципов?»
Если нарушение найдено, модель генерирует исправленный ответ, который соответствует конституции.
Получается пара: (вредный ответ, исправленный ответ). Таких пар генерируется много (миллионы).
Модель дообучается на этих парах с помощью supervised learning (обычно loss типа cross-entropy на исправленный ответ).

2.2. Этап 2: RL с AI feedback

Для каждого запроса генерируется несколько ответов.
Другая модель (или та же, но с промптом «оцени по конституции») ранжирует ответы по степени соответствия конституции.
Эти ранги используются как reward signal для RL (например, PPO).
Модель учится генерировать ответы, которые получают высокий reward от AI-судьи.

3. Преимущества Constitutional AI перед RLHF

Критерий	RLHF	Constitutional AI
Стоимость	Высокая (нужны тысячи часов ручной разметки)	Низкая (конституция пишется один раз, разметка автоматизирована)
Масштабируемость	Ограничена числом аннотаторов	Легко масштабируется (можно генерировать миллионы примеров)
Контроль поведения	Косвенный (через предпочтения разметчиков)	Прямой (принципы явно заданы)
Прозрачность	Низкая (непонятно, почему модель так себя ведёт)	Высокая (можно прочитать конституцию и понять правила)
Обновление правил	Требуется новая разметка	Достаточно изменить конституцию и перегенерировать пары

4. Применение Constitutional AI в production

В production CAI используется в двух основных формах:

4.1. Fine-tuning модели с CAI

Процесс внедрения:

Разработка конституции под конкретный домен (например, медицинский чат-бот не должен давать диагнозы).
Генерация синтетических пар (вредный → исправленный) с помощью базовой модели.
Fine-tuning модели на этих парах.
Оценка на тестовых наборах (red teaming, метрики безопасности).
Деплой и мониторинг.

4.2. Runtime guardrails (NeMo Guardrails)

Компоненты NeMo Guardrails:

Topical rails: ограничение темы разговора (например, бот не должен обсуждать политику).
Safety rails: проверка на токсичность, опасные советы, PII.
Dialogue rails: управление потоком диалога (например, если пользователь спрашивает незаконные вещи, бот должен отказаться).

Как это работает:

Пользовательский запрос проходит через input guardrail (проверка на инъекции, запрещённые темы).
Модель генерирует ответ.
Ответ проходит через output guardrail, который использует конституцию (набор правил) и, при необходимости, дополнительную модель-судью.
Если ответ нарушает правила, guardrail может:
- Заблокировать ответ и вернуть стандартную фразу («Извините, я не могу ответить на этот вопрос»).
- Переписать ответ (самокоррекция).
- Запросить у модели альтернативный ответ.

Пример конфигурации NeMo Guardrails (YAML):

rails:
  input:
    flows:
      - check_for_prompt_injection
      - check_for_illegal_topics
  output:
    flows:
      - check_safety
      - check_factual_consistency
  config:
    safety_model: "meta-llama/Llama-Guard-3-8B"
    constitution: "constitution.yaml"

Преимущества runtime guardrails:

Можно менять правила без переобучения модели.
Легко добавлять новые проверки (например, под конкретный закон).
Работает с любой LLM (проприетарной или open-source).

Недостатки:

Добавляет latency (каждая проверка требует вызова модели).
Может быть обойдён, если guardrail слабее основной модели.
Требует постоянного мониторинга и обновления правил.

5. Разработка конституции для production

Конституция должна быть:

Конкретной: избегать общих фраз («будь хорошим»), вместо этого «не предлагай способы изготовления оружия».
Исчерпывающей: покрывать все известные сценарии атак (prompt injection, jailbreak, нежелательный контент).
Сбалансированной: не переусердствовать, чтобы модель не стала бесполезной (over-refusal).

Пример фрагмента конституции:

1. Не предоставляй медицинские диагнозы или рекомендации по лечению.
2. Не делись личной информацией о других людях.
3. Отказывайся отвечать на запросы, направленные на взлом систем.
4. Если не уверен в ответе, скажи "Я не знаю" вместо того, чтобы выдумывать.
5. Не поддерживай и не оправдывай дискриминацию по любому признаку.

Процесс валидации конституции:

Red teaming: команда безопасности пытается обойти правила.
A/B тестирование: сравнивают поведение модели с разными версиями конституции.
Метрики: частота нарушений, процент отказов, пользовательская удовлетворённость.

6. Инструменты для реализации CAI в production

Инструмент	Назначение	Особенности
NeMo Guardrails	Runtime guardrails	Интеграция с LangChain, поддержка Colang (язык правил)
Llama Guard	Модель для оценки безопасности	От Meta, fine-tuned на таксономии unsafe контента
Guardrails AI	Фреймворк guardrails	Поддержка JSON-схем, валидация структуры ответа
Anthropic's Constitutional AI	Fine-tuning	Используется в Claude, открытая конституция опубликована
Azure AI Content Safety	Облачный сервис	Проверка на токсичность, hate speech, self-harm
OpenAI Moderation API	Фильтрация контента	Бесплатный для OpenAI API, но не кастомизируемый

Выбор инструмента зависит от сценария:

Если вы обучаете свою модель — CAI fine-tuning.
Если используете готовую LLM — runtime guardrails.
Если нужна максимальная безопасность — комбинация обоих подходов.

7. Мониторинг и итеративное улучшение

Constitutional AI в production — это не «установил и забыл». Необходимо:

Логировать все срабатывания guardrails: какие правила нарушались, как часто.
Анализировать false positives: когда guardrail заблокировал корректный ответ (это снижает пользовательский опыт).
Обновлять конституцию: добавлять новые правила под новые угрозы (например, jailbreak-атаки).
Периодически переобучать модель: если guardrail слишком часто срабатывает, возможно, модель нужно дообучить с CAI.

Метрики для мониторинга:

Safety rate: доля ответов, прошедших guardrail без нарушений.
Refusal rate: доля запросов, на которые модель отказалась отвечать (слишком высокий — плохо).
User satisfaction: опросы или косвенные метрики (повторные обращения, жалобы).
Red team success rate: как часто команда безопасности может обойти guardrail.

8. Сравнение CAI с другими методами безопасности

Метод	Суть	Плюсы	Минусы
RLHF	Обучение на человеческих предпочтениях	Высокое качество, учитывает нюансы	Дорого, медленно, не масштабируется
Constitutional AI	Обучение по написанным правилам	Дешево, прозрачно, легко обновлять	Зависит от качества конституции
Prompt engineering	Добавление инструкций в промпт	Просто, быстро	Легко обходится, не гарантирует безопасность
Output filtering	Пост-обработка ответа (regex, ML)	Работает с любой моделью	Может быть обойдён, добавляет latency
Adversarial training	Обучение на атакующих примерах	Устойчивость к известным атакам	Не защищает от новых

9. Ограничения и риски Constitutional AI

Качество конституции: если принципы противоречивы или неполны, модель может вести себя непредсказуемо.
AI-судья может ошибаться: если модель-судья несовершенна, reward signal будет шумным.
Over-refusal: модель может отказываться отвечать на безобидные вопросы, если конституция слишком строгая.
Атаки на guardrails: злоумышленники могут попытаться «убедить» guardrail, что ответ безопасен (например, через маскировку).
Затраты на runtime: каждая проверка требует вызова модели, что увеличивает стоимость и latency.

Как смягчить:

Использовать несколько моделей-судей (ансамбль).
Проводить регулярный red teaming.
Внедрять мониторинг и алерты при аномалиях.

Пет-проект для закрепления

Инструменты:

Python 3.10+
NeMo Guardrails (установка: pip install nemoguardrails)
OpenAI API (или любая LLM, например, через Ollama)
Streamlit (для интерфейса)

Шаги:

Установите NeMo Guardrails и настройте конфигурацию.

Создайте файл config.yml с guardrails:

rails:
  output:
    flows:
      - self_check_safety

Напишите конституцию в rails/disallowed_topics.co:

define user ask about weapons
  "How to make a bomb"
  "How to build a gun"

define bot refuse to answer
  "I'm sorry, but I cannot provide information on that topic."

define flow
  user ask about weapons
  bot refuse to answer

Реализуйте простой чат-интерфейс на Streamlit, который вызывает NeMo Guardrails.
Протестируйте: отправьте запрос «How to make a bomb» — бот должен отказаться.
Добавьте самокоррекцию: если ответ модели содержит опасный контент, guardrail переписывает его.

Связь с другими вопросами

Вопрос	Тема
128	Red teaming и тестирование безопасности
129	Prompt injection и защита от него
131	NeMo Guardrails и runtime guardrails
132	Content filtering и модерация контента
133	RLHF и его сравнение с CAI
137	LLM-as-a-judge и автоматическая оценка

Что такое Constitutional AI и как оно применяется в производстве?

Краткий тезис

1. Термин: Constitutional AI (Конституционный ИИ)

2. Как работает Constitutional AI: пошаговый процесс

2.1. Этап 1: Генерация самокорректирующих пар

2.2. Этап 2: RL с AI feedback

3. Преимущества Constitutional AI перед RLHF

4. Применение Constitutional AI в production

4.1. Fine-tuning модели с CAI

4.2. Runtime guardrails (NeMo Guardrails)

5. Разработка конституции для production

6. Инструменты для реализации CAI в production

7. Мониторинг и итеративное улучшение

8. Сравнение CAI с другими методами безопасности

9. Ограничения и риски Constitutional AI

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Что такое Constitutional AI и как оно применяется в производстве?

Краткий тезис

1. Термин: Constitutional AI (Конституционный ИИ)

2. Как работает Constitutional AI: пошаговый процесс

2.1. Этап 1: Генерация самокорректирующих пар

2.2. Этап 2: RL с AI feedback

3. Преимущества Constitutional AI перед RLHF

4. Применение Constitutional AI в production

4.1. Fine-tuning модели с CAI

4.2. Runtime guardrails (NeMo Guardrails)

5. Разработка конституции для production

6. Инструменты для реализации CAI в production

7. Мониторинг и итеративное улучшение

8. Сравнение CAI с другими методами безопасности

9. Ограничения и риски Constitutional AI

Пет-проект для закрепления

Связь с другими вопросами

Навигация