Какие типы задач требуют Level 3 представления (scientific formalization)?
Краткий тезис
Level 3 (scientific formalization) — это уровень представления знаний, при котором информация кодируется не в виде неструктурированного текста (Level 1) или полуструктурированных данных (Level 2), а в виде формальных математических моделей, логических правил и уравнений. Такое представление необходимо для задач, где требуется точное, воспроизводимое и проверяемое рассуждение: физическое моделирование, многокомпонентное планирование с временными ограничениями, генерация научных гипотез и любые сценарии, где агент должен оперировать explicit world model (явной моделью мира). В контексте Agentic RAG Level 3 позволяет агенту не просто извлекать факты, а выполнять символьные вычисления, симуляции и логический вывод, что критически повышает надёжность и обоснованность ответов.
1. Что такое уровни представления знаний (Level 1–3)
В архитектурах Agentic RAG и Knowledge-Enhanced LLM выделяют три уровня формализации знаний:
| Уровень | Название | Форма представления | Пример |
|---|---|---|---|
| Level 1 | Raw text (сырой текст) | Естественный язык, неструктурированные документы | Статья Википедии, PDF-отчёт |
| Level 2 | Structured data (структурированные данные) | Таблицы, JSON, графы знаний, ключ-значение | База данных сотрудников, Wikidata |
| Level 3 | Scientific formalization (научная формализация) | Математические модели, дифференциальные уравнения, логические предикаты, симуляции | Уравнения Навье-Стокса, модель Лотки-Вольтерры, PDDL-описание задачи планирования |
Ключевое отличие Level 3: знание представлено в форме, допускающей автоматический вывод (inference), верификацию (verification) и симуляцию (simulation) без участия LLM. LLM может лишь интерпретировать результаты формальной модели, но сами вычисления выполняются детерминированными алгоритмами.
2. Определение Level 3: Scientific Formalization
Scientific formalization — это процесс перевода эмпирических знаний или гипотез в строгую математическую/логическую форму. Такое представление обладает свойствами:
- Композициональность: сложные модели собираются из простых блоков.
- Интерпретируемость: каждый символ и уравнение имеют однозначный смысл.
- Вычислимость: модель можно запустить на компьютере и получить предсказания.
- Проверяемость: результаты можно сравнить с экспериментальными данными.
В контексте Agentic RAG Level 3 означает, что агент хранит не просто чанки текста, а исполняемые модели (executable models). Например, для задачи «Рассчитай траекторию снаряда» агент не ищет текстовое описание, а вызывает симулятор, основанный на уравнениях баллистики.
3. Физическое моделирование (Physical Simulation)
Зачем нужен Level 3
Физические процессы описываются дифференциальными уравнениями, которые невозможно адекватно представить в виде текста или таблицы. LLM не может «посчитать» траекторию — она может лишь угадать, что приведёт к ошибкам.
Примеры задач
- Расчёт механических напряжений в конструкции (метод конечных элементов).
- Моделирование климата (уравнения атмосферной динамики).
- Симуляция химических реакций (кинетические уравнения).
- Прогнозирование распространения загрязнений (уравнения адвекции-диффузии).
Как RAG|Agentic RAG использует Level 3:
- Агент получает запрос: «Как изменится температура в реакторе при увеличении давления на 10%?»
- Вместо поиска текстового ответа агент находит в своём хранилище формальную модель реактора (систему ОДУ).
- Запускает симуляцию с новыми параметрами.
- Возвращает численный результат и график.
Инструменты SciPy, Simulink, OpenModelica, FEniCS.
4. Сложное планирование (Multi-agent Planning with Temporal Constraints)
Проблема Планирование действий в среде с несколькими агентами, временными окнами и ресурсными ограничениями требует формального описания состояний, действий и переходов. Текстовое описание плана не гарантирует выполнимости.
Level 3 представление PDDL (Planning Domain Definition Language) или Temporal PDDL, STRIPS, HTN (Hierarchical Task Networks).
Пример задачи
- Координация группы дронов для доставки грузов в городе с учётом погоды, запретных зон и времени прибытия.
- Планирование производственной линии с несколькими роботами и конвейерами.
Роль Agentic RAG
- Агент хранит PDDL-домены и задачи в формализованном виде.
- При запросе «Спланируй маршрут для трёх курьеров с учётом пробок» агент извлекает соответствующую модель, запускает планировщик (например, Fast Downward, OPTIC), получает последовательность действий и возвращает её пользователю.
Ключевой элемент временные constraints (deadline, duration, synchronisation) — их невозможно корректно обработать без формальной модели.
5. Научная гипотеза генерация (Scientific Hypothesis Generation)
Задача Автоматическое выдвижение новых гипотез на основе существующих данных и закономерностей. LLM может генерировать правдоподобные тексты, но для научной ценности гипотеза должна быть формально проверяемой.
Level 3 подход
- Представление известных законов в виде уравнений (например, законы сохранения, термодинамические соотношения).
- Использование символьной регрессии (например, PySR) для поиска новых математических выражений, объясняющих данные.
- Генерация гипотезы в виде формальной модели, которую затем можно проверить экспериментально.
Пример:
- Агент анализирует данные о росте популяции бактерий в разных условиях. На основе Level 3 модели (логистическое уравнение) он предлагает модификацию: «Добавить член, учитывающий конкуренцию за субстрат» и генерирует новое дифференциальное уравнение.
Связь с Agentic RAG
- Агент использует RAG для извлечения релевантных научных статей (Level 1), извлекает из них параметры моделей (Level 2) и строит формальную модель (Level 3).
- Затем запускает симуляцию и сравнивает с данными, выдавая гипотезу в виде уравнения.
6. Задачи, требующие explicit world model (явной модели мира)
Explicit world model — это формальное представление среды, которое агент может использовать для рассуждений «что, если» (counterfactual reasoning), планирования и обучения.
Когда нужен Level 3
- Робототехника: модель динамики манипулятора (уравнения Лагранжа).
- Экономическое прогнозирование: DSGE-модели (динамические стохастические модели общего равновесия).
- Медицинская диагностика: модели фармакокинетики (дифференциальные уравнения концентрации лекарства).
- Игровой AI: формальное описание правил игры (например, шахматы — доска и ходы в виде предикатов).
Пример Agentic RAG с explicit world model:
- Агент-помощник врача: получает запрос «Как изменится дозировка препарата для пациента с почечной недостаточностью?»
- Извлекает формальную фармакокинетическую модель (Level 3) и параметры пациента (Level 2).
- Запускает симуляцию и выдаёт рекомендацию с графиком концентрации.
Преимущество ответ не «угадан» LLM, а вычислен на основе физиологии.
7. Сравнительная таблица: Level 1 vs Level 2 vs Level 3 для типовых задач
| Критерий | Level 1 (текст) | Level 2 (структура) | Level 3 (формальная модель) |
|---|---|---|---|
| Физическое моделирование | Невозможно (только описание) | Частично (таблицы параметров) | Да (уравнения, симуляция) |
| Планирование с временными constraints | Не гарантирует выполнимость | Можно хранить расписания, но не проверять | Да (PDDL, проверка SAT) |
| Генерация гипотез | Правдоподобные тексты | Статистические корреляции | Да (символьная регрессия) |
| Explicit world model | Отсутствует | Фрагментарно | Полная, исполняемая |
| Точность ответа | Низкая (зависит от LLM) | Средняя (зависит от данных) | Высокая (детерминированная) |
| Вычислительные затраты | Низкие (только LLM) | Средние (запросы к БД) | Высокие (симуляция) |
8. Пример архитектуры Agentic RAG с Level 3
# Псевдокод агента, использующего формальную модель
class ScientificAgent:
def __init__(self, retriever, model_registry):
self.retriever = retriever # RAG для Level 1/2
self.model_registry = model_registry # Хранилище Level 3 моделей (например, .pkl, .py)
def answer(self, query):
# 1. Определяем, нужна ли формальная модель
intent = self.classify_intent(query) # "simulation", "planning", "hypothesis"
if intent in ["simulation", "planning"]:
# 2. Извлекаем формальную модель
model_id = self.retriever.retrieve_model(query) # поиск по метаданным
model = self.model_registry.load(model_id)
# 3. Извлекаем параметры из Level 2 (таблицы, JSON)
params = self.retriever.retrieve_parameters(query)
# 4. Запускаем симуляцию / планировщик
result = model.run(**params)
# 5. Генерируем ответ с помощью LLM, используя result как контекст
return self.llm.generate(f"Query: {query}\nSimulation result: {result}")
else:
# Обычный RAG
docs = self.retriever.retrieve(query)
return self.llm.generate(docs + query)
Ключевые компоненты
- Model registry — база формальных моделей (уравнения, PDDL, нейросетевые симуляторы).
- Retriever — должен уметь искать не только текст, но и метаданные моделей (теги, область применения).
- LLM — используется для интерпретации результатов, а не для вычислений.
9. Связь с Agentic RAG
Level 3 — это естественное расширение возможностей агента. Без него Agentic RAG остаётся «умным поисковиком» с генерацией. С Level 3 агент становится вычислительным ассистентом, способным:
- Проверять гипотезы (simulation-based verification).
- Оптимизировать решения (планирование с обратной связью).
- Объяснять результаты через формальные выводы.
Ограничения
- Создание формальных моделей требует экспертизы и времени.
- Не все задачи можно формализовать (творческие, социальные).
- Высокая стоимость симуляций.
10. Пет-проект для закрепления
Задача Разработать агента, который отвечает на вопросы по физике маятника, используя Level 3 представление.
Инструменты
- Python,
scipy.integrate.solve_ivpдля решения ОДУ. - LangChain или простой агент на
transformers+chromadb. - Хранилище моделей: JSON-файл с описанием уравнений и параметров.
Шаги:
- Создайте формальную модель маятника:
d²θ/dt² + (g/L)*sin(θ) = 0. - Загрузите модель в registry (например, как функцию Python).
- Напишите retriever, который по запросу «период колебаний маятника длиной 1 м» находит модель и извлекает параметры (L=1, g=9.81).
- Реализуйте агента: получает запрос → определяет, что нужна симуляция → запускает
solve_ivp→ возвращает период и график. - Добавьте RAG для контекстной информации (например, формулы из учебника).
Ожидаемый результат
- Агент выдаёт точный численный ответ (например, «Период ≈ 2.007 с»), а не текстовое описание.
- Можно задать уточняющие вопросы: «А если угол 30°?» — агент перезапускает симуляцию с новыми начальными условиями.
11. Связь с другими вопросами
| Вопрос | Тема |
|---|---|
| 190 | Какие задачи решаются с Level 2 представлением (structured data)? |
| 192 | Как реализовать Level 4 представление (executable code)? |
| 185 | Что такое multi-agent системы в Agentic RAG? |
| 180 | Как спроектировать Agentic RAG с поддержкой планирования? |
| 195 | Как построить explicit world model для агента? |
| 200 | Какие метрики оценивают качество формальных моделей? |
12. Навигация
- Предыдущий: 190
- Следующий: 192
- Индекс: 00. Индекс разборов
Навигация
- Предыдущий: 190
- Следующий: 192
- Индекс: 00. Индекс разборов