Какие типы задач требуют Level 3 представления (scientific formalization)?

Q: Краткий тезис

**[[Вики/natural language\|Level 3]] ([[Вики/World models\|scientific formalization]])** — это уровень представления знаний, при котором информация кодируется не в виде неструктурированного текста ([[Вики/natural language\|Level 1]]) или полуструктурированных данных ([[Вики/natural language\|Level 2]]), а в виде формальных математических моделей, логических правил и уравнений. Такое представление необходимо для задач, где требуется точное, воспроизводимое и проверяемое [[Вики/Reasoning\|рассужде

Q: 1. Что такое уровни представления знаний (Level 1–3)

В архитектурах [[Вики/Agentic RAG\|Agentic RAG]] и Knowledge-Enhanced [[Вики/LLM\|LLM]] выделяют три уровня формализации знаний: | Уровень | Название | Форма представления | Пример | |---------|----------|---------------------|--------| | Level 1 | **Raw text** (сырой текст) | Естественный язык, неструктурированные документы | Статья Википедии, PDF-отчёт |

Q: 2. Определение Level 3: Scientific Formalization

- [[Вики/Compositionality\|Композициональность]]: сложные модели собираются из простых блоков. - [[Вики/Interpretability\|Интерпретируемость]]: каждый символ и уравнение имеют однозначный смысл. - Вычислимость: [[Вики/model\|модель]] можно запустить на компьютере и получить предсказания.

Q: 3. Физическое моделирование (Physical Simulation)

Зачем нужен [[Вики/natural language\|Level 3]] Физические процессы описываются дифференциальными уравнениями, которые невозможно адекватно представить в виде текста или таблицы. [[Вики/LLM\|LLM]] не может «посчитать» траекторию — она может лишь угадать, что приведёт к ошибкам. Примеры задач

Q: 4. Сложное планирование (Multi-agent Planning with Temporal Constraints)

Проблема [[Вики/planning\|Планирование]] действий в среде с несколькими агентами, временными окнами и ресурсными ограничениями требует формального описания состояний, действий и переходов. Текстовое описание плана не гарантирует выполнимости. Пример задачи - [[Вики/orchestration\|Координация]] группы дронов для доставки грузов в городе с учётом погоды, запретных зон и времени прибытия.

Q: 5. Научная гипотеза генерация (Scientific Hypothesis Generation)

- Представление известных законов в виде уравнений (например, законы сохранения, термодинамические соотношения). - Использование символьной регрессии (например, `[[Вики/PySR\|PySR]]`) для поиска новых математических выражений, объясняющих данные. - [[Вики/hypothesis engine\|Генерация гипотезы]] в виде формальной модели, которую затем можно проверить экспериментально.

Q: 6. Задачи, требующие explicit world model (явной модели мира)

**[[Вики/World models\|Explicit world model]]** — это формальное представление среды, которое [[Вики/agent\|агент]] может использовать для рассуждений «что, если» ([[Вики/counterfactual reasoning\|counterfactual reasoning]]), планирования и обучения. Когда нужен [[Вики/natural language\|Level 3]]

Q: 7. Сравнительная таблица: Level 1 vs Level 2 vs Level 3 для типовых задач

| Критерий | Level 1 (текст) | Level 2 (структура) | Level 3 (формальная модель) | |----------|----------------|---------------------|-----------------------------| | Физическое моделирование | Невозможно (только описание) | Частично (таблицы параметров) | Да (уравнения, симуляция) |

Краткий тезис

Level 3 (scientific formalization) — это уровень представления знаний, при котором информация кодируется не в виде неструктурированного текста (Level 1) или полуструктурированных данных (Level 2), а в виде формальных математических моделей, логических правил и уравнений. Такое представление необходимо для задач, где требуется точное, воспроизводимое и проверяемое рассуждение: физическое моделирование, многокомпонентное планирование с временными ограничениями, генерация научных гипотез и любые сценарии, где агент должен оперировать explicit world model (явной моделью мира). В контексте Agentic RAG Level 3 позволяет агенту не просто извлекать факты, а выполнять символьные вычисления, симуляции и логический вывод, что критически повышает надёжность и обоснованность ответов.

1. Что такое уровни представления знаний (Level 1–3)

В архитектурах Agentic RAG и Knowledge-Enhanced LLM выделяют три уровня формализации знаний:

Уровень	Название	Форма представления	Пример
Level 1	Raw text (сырой текст)	Естественный язык, неструктурированные документы	Статья Википедии, PDF-отчёт
Level 2	Structured data (структурированные данные)	Таблицы, JSON, графы знаний, ключ-значение	База данных сотрудников, Wikidata
Level 3	Scientific formalization (научная формализация)	Математические модели, дифференциальные уравнения, логические предикаты, симуляции	Уравнения Навье-Стокса, модель Лотки-Вольтерры, PDDL-описание задачи планирования

Ключевое отличие Level 3: знание представлено в форме, допускающей автоматический вывод (inference), верификацию (verification) и симуляцию (simulation) без участия LLM. LLM может лишь интерпретировать результаты формальной модели, но сами вычисления выполняются детерминированными алгоритмами.

2. Определение Level 3: Scientific Formalization

Scientific formalization — это процесс перевода эмпирических знаний или гипотез в строгую математическую/логическую форму. Такое представление обладает свойствами:

Композициональность: сложные модели собираются из простых блоков.
Интерпретируемость: каждый символ и уравнение имеют однозначный смысл.
Вычислимость: модель можно запустить на компьютере и получить предсказания.
Проверяемость: результаты можно сравнить с экспериментальными данными.

В контексте Agentic RAG Level 3 означает, что агент хранит не просто чанки текста, а исполняемые модели (executable models). Например, для задачи «Рассчитай траекторию снаряда» агент не ищет текстовое описание, а вызывает симулятор, основанный на уравнениях баллистики.

3. Физическое моделирование (Physical Simulation)

Зачем нужен Level 3
Физические процессы описываются дифференциальными уравнениями, которые невозможно адекватно представить в виде текста или таблицы. LLM не может «посчитать» траекторию — она может лишь угадать, что приведёт к ошибкам.

Примеры задач

Расчёт механических напряжений в конструкции (метод конечных элементов).
Моделирование климата (уравнения атмосферной динамики).
Симуляция химических реакций (кинетические уравнения).
Прогнозирование распространения загрязнений (уравнения адвекции-диффузии).

Как RAG|Agentic RAG использует Level 3:

Агент получает запрос: «Как изменится температура в реакторе при увеличении давления на 10%?»
Вместо поиска текстового ответа агент находит в своём хранилище формальную модель реактора (систему ОДУ).
Запускает симуляцию с новыми параметрами.
Возвращает численный результат и график.

Инструменты SciPy, Simulink, OpenModelica, FEniCS.

4. Сложное планирование (Multi-agent Planning with Temporal Constraints)

Проблема Планирование действий в среде с несколькими агентами, временными окнами и ресурсными ограничениями требует формального описания состояний, действий и переходов. Текстовое описание плана не гарантирует выполнимости.

Level 3 представление PDDL (Planning Domain Definition Language) или Temporal PDDL, STRIPS, HTN (Hierarchical Task Networks).

Пример задачи

Координация группы дронов для доставки грузов в городе с учётом погоды, запретных зон и времени прибытия.
Планирование производственной линии с несколькими роботами и конвейерами.

Роль Agentic RAG

Агент хранит PDDL-домены и задачи в формализованном виде.
При запросе «Спланируй маршрут для трёх курьеров с учётом пробок» агент извлекает соответствующую модель, запускает планировщик (например, Fast Downward, OPTIC), получает последовательность действий и возвращает её пользователю.

Ключевой элемент временные constraints (deadline, duration, synchronisation) — их невозможно корректно обработать без формальной модели.

5. Научная гипотеза генерация (Scientific Hypothesis Generation)

Задача Автоматическое выдвижение новых гипотез на основе существующих данных и закономерностей. LLM может генерировать правдоподобные тексты, но для научной ценности гипотеза должна быть формально проверяемой.

Level 3 подход

Представление известных законов в виде уравнений (например, законы сохранения, термодинамические соотношения).
Использование символьной регрессии (например, PySR) для поиска новых математических выражений, объясняющих данные.
Генерация гипотезы в виде формальной модели, которую затем можно проверить экспериментально.

Пример:

Агент анализирует данные о росте популяции бактерий в разных условиях. На основе Level 3 модели (логистическое уравнение) он предлагает модификацию: «Добавить член, учитывающий конкуренцию за субстрат» и генерирует новое дифференциальное уравнение.

Связь с Agentic RAG

Агент использует RAG для извлечения релевантных научных статей (Level 1), извлекает из них параметры моделей (Level 2) и строит формальную модель (Level 3).
Затем запускает симуляцию и сравнивает с данными, выдавая гипотезу в виде уравнения.

6. Задачи, требующие explicit world model (явной модели мира)

Explicit world model — это формальное представление среды, которое агент может использовать для рассуждений «что, если» (counterfactual reasoning), планирования и обучения.

Когда нужен Level 3

Робототехника: модель динамики манипулятора (уравнения Лагранжа).
Экономическое прогнозирование: DSGE-модели (динамические стохастические модели общего равновесия).
Медицинская диагностика: модели фармакокинетики (дифференциальные уравнения концентрации лекарства).
Игровой AI: формальное описание правил игры (например, шахматы — доска и ходы в виде предикатов).

Пример Agentic RAG с explicit world model:

Агент-помощник врача: получает запрос «Как изменится дозировка препарата для пациента с почечной недостаточностью?»
Извлекает формальную фармакокинетическую модель (Level 3) и параметры пациента (Level 2).
Запускает симуляцию и выдаёт рекомендацию с графиком концентрации.

Преимущество ответ не «угадан» LLM, а вычислен на основе физиологии.

7. Сравнительная таблица: Level 1 vs Level 2 vs Level 3 для типовых задач

Критерий	Level 1 (текст)	Level 2 (структура)	Level 3 (формальная модель)
Физическое моделирование	Невозможно (только описание)	Частично (таблицы параметров)	Да (уравнения, симуляция)
Планирование с временными constraints	Не гарантирует выполнимость	Можно хранить расписания, но не проверять	Да (PDDL, проверка SAT)
Генерация гипотез	Правдоподобные тексты	Статистические корреляции	Да (символьная регрессия)
Explicit world model	Отсутствует	Фрагментарно	Полная, исполняемая
Точность ответа	Низкая (зависит от LLM)	Средняя (зависит от данных)	Высокая (детерминированная)
Вычислительные затраты	Низкие (только LLM)	Средние (запросы к БД)	Высокие (симуляция)

8. Пример архитектуры Agentic RAG с Level 3

# Псевдокод агента, использующего формальную модель
class ScientificAgent:
    def __init__(self, retriever, model_registry):
        self.retriever = retriever          # RAG для Level 1/2
        self.model_registry = model_registry  # Хранилище Level 3 моделей (например, .pkl, .py)

    def answer(self, query):
        # 1. Определяем, нужна ли формальная модель
        intent = self.classify_intent(query)  # "simulation", "planning", "hypothesis"
        if intent in ["simulation", "planning"]:
            # 2. Извлекаем формальную модель
            model_id = self.retriever.retrieve_model(query)  # поиск по метаданным
            model = self.model_registry.load(model_id)
            # 3. Извлекаем параметры из Level 2 (таблицы, JSON)
            params = self.retriever.retrieve_parameters(query)
            # 4. Запускаем симуляцию / планировщик
            result = model.run(**params)
            # 5. Генерируем ответ с помощью LLM, используя result как контекст
            return self.llm.generate(f"Query: {query}\nSimulation result: {result}")
        else:
            # Обычный RAG
            docs = self.retriever.retrieve(query)
            return self.llm.generate(docs + query)

Ключевые компоненты

Model registry — база формальных моделей (уравнения, PDDL, нейросетевые симуляторы).
Retriever — должен уметь искать не только текст, но и метаданные моделей (теги, область применения).
LLM — используется для интерпретации результатов, а не для вычислений.

9. Связь с Agentic RAG

Level 3 — это естественное расширение возможностей агента. Без него Agentic RAG остаётся «умным поисковиком» с генерацией. С Level 3 агент становится вычислительным ассистентом, способным:

Проверять гипотезы (simulation-based verification).
Оптимизировать решения (планирование с обратной связью).
Объяснять результаты через формальные выводы.

Ограничения

Создание формальных моделей требует экспертизы и времени.
Не все задачи можно формализовать (творческие, социальные).
Высокая стоимость симуляций.

10. Пет-проект для закрепления

Задача Разработать агента, который отвечает на вопросы по физике маятника, используя Level 3 представление.

Инструменты

Python, scipy.integrate.solve_ivp для решения ОДУ.
LangChain или простой агент на transformers + chromadb.
Хранилище моделей: JSON-файл с описанием уравнений и параметров.

Шаги:

Создайте формальную модель маятника: d²θ/dt² + (g/L)*sin(θ) = 0.
Загрузите модель в registry (например, как функцию Python).
Напишите retriever, который по запросу «период колебаний маятника длиной 1 м» находит модель и извлекает параметры (L=1, g=9.81).
Реализуйте агента: получает запрос → определяет, что нужна симуляция → запускает solve_ivp → возвращает период и график.
Добавьте RAG для контекстной информации (например, формулы из учебника).

Ожидаемый результат

Агент выдаёт точный численный ответ (например, «Период ≈ 2.007 с»), а не текстовое описание.
Можно задать уточняющие вопросы: «А если угол 30°?» — агент перезапускает симуляцию с новыми начальными условиями.

11. Связь с другими вопросами

Вопрос	Тема
190	Какие задачи решаются с Level 2 представлением (structured data)?
192	Как реализовать Level 4 представление (executable code)?
185	Что такое multi-agent системы в Agentic RAG?
180	Как спроектировать Agentic RAG с поддержкой планирования?
195	Как построить explicit world model для агента?
200	Какие метрики оценивают качество формальных моделей?

12. Навигация

Предыдущий: 190
Следующий: 192
Индекс: 00. Индекс разборов