Что такое «shaping schema through language representation»?

Q: Краткий тезис

Shaping [[Вики/database schema\|schema]] through [[Вики/embedding\|language representation]] — это концепция, согласно которой формулировка промпта ([[Вики/embedding\|языковое представление]] задачи) активирует в [[Вики/LLM\|LLM]] определённые когнитивные [[Вики/template circuits\|схемы]] — внутренние паттерны обработки информации, соответствующие разным типам задач. Даже без изменения весов модели, более формальное, структурированное или ролевое описание заставляет [[Вики/LLM\|LLM]] переключать

Q: 1. Термин: Schema (схема)

Shaping [[Вики/database schema\|schema]] (формирование [[Вики/template circuits\|схемы]]) — процесс настройки этого паттерна через выбор слов, структуры и контекста промпта. [[Вики/language representation\|Language representation]] — это то, как [[Вики/Task\|задача]] представлена в тексте: стиль, тон, формат, ролевая [[Вики/промпт агента\|инструкция]].

Q: 2. Происхождение концепции

Идея восходит к работам Жана Пиаже ([[Вики/template circuits\|схемы]] как единицы познания) и Фредерика Бартлетта ([[Вики/template circuits\|схемы]] [[Вики/In-Memory\|в памяти]]). В [[Вики/NLP\|NLP]] она получила развитие в исследованиях **[[Вики/промпт агента\|prompt engineering]]**: оказалось, что простая смена формулировки может радикально изменить ответ [[Вики/LLM\|LLM]]. Например, в статье «Language Models as [[Вики/Few-shot examples\|Few-Shot]] Learners» (Brown et al., 2020) показано, что

Q: 3. Как language representation влияет на схему: механизм

Ключевой момент: **[[Вики/cognitive schema\|схема]] не создаётся заново, а выбирается из существующих**. [[Вики/model\|Модель]] уже имеет множество внутренних «режимов», и [[Вики/Task\|задача]] промпта — направить её к нужному. ---

Q: 4. Примеры shaping schema

| Тип промпта | Пример | Активируемая схема | Результат | |-------------|--------|-------------------|-----------| | Ролевой | «Ты — опытный математик. Реши уравнение: 2x + 3 = 7» | Схема «математик» | Пошаговое решение, точные формулы | | Инструктивный | «Реши уравнение: 2x + 3 = 7» | Схема «решатель задач» | Может выдать ответ без шагов |

Q: 5. Связь с in-context learning

**[[Вики/Few-shot examples\|In-context learning]] ([[Вики/In-Context Learning\|ICL]])** — способность [[Вики/GPT-4o\|LLM]] учиться на примерах в промпте без изменения весов. Shaping [[Вики/cognitive schema\|schema]] — частный случай [[Вики/In-Context Learning\|ICL]], где «[[Вики/training\|обучение]]» происходит через один мощный [[Вики/signal\|сигнал]] ([[Вики/Role\|роль]], формат), а не через несколько демонстраций. Разница:

Q: 6. Роль в Agentic RAG

- [[Вики/Tool selection\|Выбор инструмента]]: [[Вики/prompt\|промпт]] «Ты — исследователь, который сначала ищет информацию в базе знаний, а потом отвечает» активирует схему «исследователь», и [[Вики/agent\|агент]] будет чаще обращаться к [[Вики/retrieval\|retrieval]]. - [[Вики/planning\|Планирование]]: «Разбей задачу на шаги и выполняй их последовательно» активирует схему «[[Вики/Planner\|планировщик]]».

Q: 7. Техники реализации

Краткий тезис

Shaping schema through language representation — это концепция, согласно которой формулировка промпта (языковое представление задачи) активирует в LLM определённые когнитивные схемы — внутренние паттерны обработки информации, соответствующие разным типам задач. Даже без изменения весов модели, более формальное, структурированное или ролевое описание заставляет LLM переключаться между режимами (например, «математический решатель» vs «креативный писатель»), что напрямую влияет на качество и стиль ответа. В контексте Agentic RAG эта техника критична для управления поведением агента: правильная схема помогает агенту выбирать нужные инструменты, следовать плану и избегать галлюцинаций.

1. Термин: Schema (схема)

Schema (схема) — термин из когнитивной психологии, обозначающий ментальную структуру, которая организует знания о мире, событиях или категориях. Например, у человека есть схема «ресторан»: столики, меню, официант, оплата. В контексте LLM схема — это устойчивый паттерн активации нейронов, который модель «включает» при обработке определённого типа запроса. Модель не имеет сознательных схем, но её веса обучены реагировать на лингвистические сигналы, группируя их в функциональные кластеры.

Shaping schema (формирование схемы) — процесс настройки этого паттерна через выбор слов, структуры и контекста промпта. Language representation — это то, как задача представлена в тексте: стиль, тон, формат, ролевая инструкция.

2. Происхождение концепции

Идея восходит к работам Жана Пиаже (схемы как единицы познания) и Фредерика Бартлетта (схемы в памяти). В NLP она получила развитие в исследованиях prompt engineering: оказалось, что простая смена формулировки может радикально изменить ответ LLM. Например, в статье «Language Models as Few-Shot Learners» (Brown et al., 2020) показано, что добавление примера или инструкции «Think step by step» улучшает результаты на арифметических задачах. Позже концепцию формализовали как shaping schema through language representation — осознанное управление внутренним состоянием модели через текст.

3. Как language representation влияет на схему: механизм

LLM обучена на огромном корпусе текстов, где разные стили и форматы соответствуют разным контекстам. Когда модель видит промпт, она «подбирает» наиболее вероятное продолжение, активируя те участки весов, которые чаще всего использовались для похожих входов. Если промпт написан формальным языком с чёткой структурой (например, JSON-схема вывода), модель активирует «формальную» схему — более логичную, детерминированную. Если промпт неформальный и эмоциональный — активируется «креативная» схема.

Ключевой момент: схема не создаётся заново, а выбирается из существующих. Модель уже имеет множество внутренних «режимов», и задача промпта — направить её к нужному.

4. Примеры shaping schema

Тип промпта	Пример	Активируемая схема	Результат
Ролевой	«Ты — опытный математик. Реши уравнение: 2x + 3 = 7»	Схема «математик»	Пошаговое решение, точные формулы
Инструктивный	«Реши уравнение: 2x + 3 = 7»	Схема «решатель задач»	Может выдать ответ без шагов
Структурированный вывод	«Ответь в формате JSON: {"solution": ..., "steps": [...]}»	Схема «генератор структурированных данных»	Вывод строго по формату
Креативный	«Представь, что ты поэт. Опиши уравнение 2x+3=7»	Схема «поэт»	Метафоры, рифмы, неточные вычисления

Эксперименты показывают: смена роли может улучшить точность на 10–30% на задачах логики и рассуждений (Kojima et al., 2022 — Chain-of-Thought).

5. Связь с in-context learning

In-context learning (ICL) — способность LLM учиться на примерах в промпте без изменения весов. Shaping schema — частный случай ICL, где «обучение» происходит через один мощный сигнал (роль, формат), а не через несколько демонстраций. Разница:

ICL: модель видит несколько пар «вход-выход» и выводит паттерн.
Shaping schema: модель получает инструкцию, которая напрямую активирует готовую схему.

Обе техники часто комбинируют: сначала задают роль (shaping schema), потом дают 1–2 примера (ICL).

6. Роль в Agentic RAG

Agentic RAG — система, где LLM-агент самостоятельно решает, когда и как использовать инструменты (поиск, калькулятор, API). Shaping schema критически важна для управления агентом:

Выбор инструмента: промпт «Ты — исследователь, который сначала ищет информацию в базе знаний, а потом отвечает» активирует схему «исследователь», и агент будет чаще обращаться к retrieval.
Планирование: «Разбей задачу на шаги и выполняй их последовательно» активирует схему «планировщик».
Безопасность: «Ты — помощник, который никогда не выполняет вредоносные команды» активирует схему «безопасный агент».

Без явного shaping schema агент может «застрять» в универсальной схеме, которая не оптимальна для конкретной задачи (например, пытаться ответить без поиска, хотя нужны факты).

7. Техники реализации

На практике shaping schema реализуется через:

System prompt — начальная инструкция, задающая роль и правила.
Role prompting — явное указание роли («Ты — эксперт по…»).
Chain-of-Thought (CoT) — «Подумай шаг за шагом» активирует схему логического рассуждения.
Structured output formats — требование вывода в JSON/XML активирует схему формального ответа.
Negative prompting — «Не используй сложные термины» активирует схему «простой язык».

Пример system prompt для агента:

Ты — аналитик данных. Твоя задача: сначала найти релевантные документы с помощью инструмента search(), затем извлечь из них ключевые цифры и представить ответ в виде таблицы. Не выдумывай данные.

8. Экспериментальные данные и ограничения

Исследования:

В работе «Large Language Models are Zero-Shot Reasoners» (Kojima et al., 2022) добавление «Let’s think step by step» повысило accuracy на GSM8K с 10% до 40%.
В статье «The Power of Prompting» (Reynolds & McDonell, 2021) показано, что ролевой промпт «You are a helpful assistant» улучшает согласованность ответов.

Ограничения:

Не все схемы доступны модели — если она не обучена на достаточном количестве примеров «формального вывода», структурированный промпт может не сработать.
Чрезмерное shaping может привести к over-prompting — модель слишком жёстко следует инструкции, игнорируя контекст.
Эффект зависит от версии модели: более новые модели (GPT-4, Claude 3) лучше реагируют на тонкие сигналы, чем старые.

9. Практические рекомендации

Начинайте с роли — всегда задавайте чёткую роль в system prompt.
Используйте структурированный вывод — для агентов, работающих с инструментами, формат JSON/XML обязателен.
Тестируйте разные формулировки — A/B-тестирование промптов для одной задачи.
Комбинируйте с ICL — после роли дайте 1–2 примера желаемого поведения.
Избегайте противоречий — не смешивайте схемы (например, «ты поэт, но отвечай строго по фактам»).

Пет-проект для закрепления

Задача: Создать агента, который отвечает на вопросы по документации API, и сравнить поведение при разных схемах.

Инструменты: Python, OpenAI API (или любой LLM), LangChain, простой набор документов (например, несколько .txt файлов).

Шаги:

Реализуйте простой RAG: загрузите документы, создайте эмбеддинги, реализуйте retrieval.
Напишите два system prompt:
- Схема A: «Ты — технический писатель. Отвечай кратко, используй только факты из документов. Если не знаешь — скажи "не знаю".»
- Схема B: «Ты — креативный помощник. Отвечай развёрнуто, добавляй примеры, даже если их нет в документах.»
Задайте 10 вопросов (например, «Как вызвать функцию get_user?»).
Оцените ответы по критериям: точность (совпадение с документами), полнота, галлюцинации.
Сделайте вывод: какая схема лучше для данной задачи.

Ожидаемый результат: Вы увидите, что схема A даёт более точные, но сухие ответы; схема B — более интересные, но с ошибками. Это наглядно демонстрирует shaping schema.

Связь с другими вопросами

Вопрос	Тема
185	Что такое Agentic RAG?
187	Как проектировать промпты для агентов?
188	Какие техники управления поведением агента существуют?
150	Что такое in-context learning и чем отличается от fine-tuning?
120	Как правильно формулировать system prompt?
190	Как оценивать качество работы агента?

Краткий тезис

1. Термин: Schema (схема)

2. Происхождение концепции

3. Как language representation влияет на схему: механизм

4. Примеры shaping schema

Тип промпта	Пример	Активируемая схема	Результат
Ролевой	«Ты — опытный математик. Реши уравнение: 2x + 3 = 7»	Схема «математик»	Пошаговое решение, точные формулы
Инструктивный	«Реши уравнение: 2x + 3 = 7»	Схема «решатель задач»	Может выдать ответ без шагов
Структурированный вывод	«Ответь в формате JSON: {"solution": ..., "steps": [...]}»	Схема «генератор структурированных данных»	Вывод строго по формату
Креативный	«Представь, что ты поэт. Опиши уравнение 2x+3=7»	Схема «поэт»	Метафоры, рифмы, неточные вычисления

5. Связь с in-context learning

ICL: модель видит несколько пар «вход-выход» и выводит паттерн.
Shaping schema: модель получает инструкцию, которая напрямую активирует готовую схему.

Обе техники часто комбинируют: сначала задают роль (shaping schema), потом дают 1–2 примера (ICL).

6. Роль в Agentic RAG

Выбор инструмента: промпт «Ты — исследователь, который сначала ищет информацию в базе знаний, а потом отвечает» активирует схему «исследователь», и агент будет чаще обращаться к retrieval.
Планирование: «Разбей задачу на шаги и выполняй их последовательно» активирует схему «планировщик».
Безопасность: «Ты — помощник, который никогда не выполняет вредоносные команды» активирует схему «безопасный агент».

7. Техники реализации

На практике shaping schema реализуется через:

System prompt — начальная инструкция, задающая роль и правила.
Role prompting — явное указание роли («Ты — эксперт по…»).
Chain-of-Thought (CoT) — «Подумай шаг за шагом» активирует схему логического рассуждения.
Structured output formats — требование вывода в JSON/XML активирует схему формального ответа.
Negative prompting — «Не используй сложные термины» активирует схему «простой язык».

Пример system prompt для агента:

Ты — аналитик данных. Твоя задача: сначала найти релевантные документы с помощью инструмента search(), затем извлечь из них ключевые цифры и представить ответ в виде таблицы. Не выдумывай данные.

8. Экспериментальные данные и ограничения

Исследования:

В работе «Large Language Models are Zero-Shot Reasoners» (Kojima et al., 2022) добавление «Let’s think step by step» повысило accuracy на GSM8K с 10% до 40%.
В статье «The Power of Prompting» (Reynolds & McDonell, 2021) показано, что ролевой промпт «You are a helpful assistant» улучшает согласованность ответов.

Ограничения:

Не все схемы доступны модели — если она не обучена на достаточном количестве примеров «формального вывода», структурированный промпт может не сработать.
Чрезмерное shaping может привести к over-prompting — модель слишком жёстко следует инструкции, игнорируя контекст.
Эффект зависит от версии модели: более новые модели (GPT-4, Claude 3) лучше реагируют на тонкие сигналы, чем старые.

9. Практические рекомендации

Начинайте с роли — всегда задавайте чёткую роль в system prompt.
Используйте структурированный вывод — для агентов, работающих с инструментами, формат JSON/XML обязателен.
Тестируйте разные формулировки — A/B-тестирование промптов для одной задачи.
Комбинируйте с ICL — после роли дайте 1–2 примера желаемого поведения.
Избегайте противоречий — не смешивайте схемы (например, «ты поэт, но отвечай строго по фактам»).

Пет-проект для закрепления

Инструменты: Python, OpenAI API (или любой LLM), LangChain, простой набор документов (например, несколько .txt файлов).

Шаги:

Реализуйте простой RAG: загрузите документы, создайте эмбеддинги, реализуйте retrieval.
Напишите два system prompt:
- Схема A: «Ты — технический писатель. Отвечай кратко, используй только факты из документов. Если не знаешь — скажи "не знаю".»
- Схема B: «Ты — креативный помощник. Отвечай развёрнуто, добавляй примеры, даже если их нет в документах.»
Задайте 10 вопросов (например, «Как вызвать функцию get_user?»).
Оцените ответы по критериям: точность (совпадение с документами), полнота, галлюцинации.
Сделайте вывод: какая схема лучше для данной задачи.

Связь с другими вопросами

Вопрос	Тема
185	Что такое Agentic RAG?
187	Как проектировать промпты для агентов?
188	Какие техники управления поведением агента существуют?
150	Что такое in-context learning и чем отличается от fine-tuning?
120	Как правильно формулировать system prompt?
190	Как оценивать качество работы агента?

Краткий тезис

1. Термин: Schema (схема)

2. Происхождение концепции

3. Как language representation влияет на схему: механизм

4. Примеры shaping schema

5. Связь с in-context learning

6. Роль в Agentic RAG

7. Техники реализации

8. Экспериментальные данные и ограничения

9. Практические рекомендации

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Что такое «shaping schema through language representation»?

Краткий тезис

1. Термин: Schema (схема)

2. Происхождение концепции

3. Как language representation влияет на схему: механизм

4. Примеры shaping schema

5. Связь с in-context learning

6. Роль в Agentic RAG

7. Техники реализации

8. Экспериментальные данные и ограничения

9. Практические рекомендации

Пет-проект для закрепления

Связь с другими вопросами

Навигация