中文翻译暂不可用,显示俄语原文。

Какие типы задач требуют Level 3 представления (scientific formalization)?

Краткий тезис

Level 3 (scientific formalization) — это уровень представления знаний, при котором информация кодируется не в виде неструктурированного текста (Level 1) или полуструктурированных данных (Level 2), а в виде формальных математических моделей, логических правил и уравнений. Такое представление необходимо для задач, где требуется точное, воспроизводимое и проверяемое рассуждение: физическое моделирование, многокомпонентное планирование с временными ограничениями, генерация научных гипотез и любые сценарии, где агент должен оперировать explicit world model (явной моделью мира). В контексте Agentic RAG Level 3 позволяет агенту не просто извлекать факты, а выполнять символьные вычисления, симуляции и логический вывод, что критически повышает надёжность и обоснованность ответов.


1. Что такое уровни представления знаний (Level 1–3)

В архитектурах Agentic RAG и Knowledge-Enhanced LLM выделяют три уровня формализации знаний:

УровеньНазваниеФорма представленияПример
Level 1Raw text (сырой текст)Естественный язык, неструктурированные документыСтатья Википедии, PDF-отчёт
Level 2Structured data (структурированные данные)Таблицы, JSON, графы знаний, ключ-значениеБаза данных сотрудников, Wikidata
Level 3Scientific formalization (научная формализация)Математические модели, дифференциальные уравнения, логические предикаты, симуляцииУравнения Навье-Стокса, модель Лотки-Вольтерры, PDDL-описание задачи планирования

Ключевое отличие Level 3: знание представлено в форме, допускающей автоматический вывод (inference), верификацию (verification) и симуляцию (simulation) без участия LLM. LLM может лишь интерпретировать результаты формальной модели, но сами вычисления выполняются детерминированными алгоритмами.


2. Определение Level 3: Scientific Formalization

Scientific formalization — это процесс перевода эмпирических знаний или гипотез в строгую математическую/логическую форму. Такое представление обладает свойствами:

  • Композициональность: сложные модели собираются из простых блоков.
  • Интерпретируемость: каждый символ и уравнение имеют однозначный смысл.
  • Вычислимость: модель можно запустить на компьютере и получить предсказания.
  • Проверяемость: результаты можно сравнить с экспериментальными данными.

В контексте Agentic RAG Level 3 означает, что агент хранит не просто чанки текста, а исполняемые модели (executable models). Например, для задачи «Рассчитай траекторию снаряда» агент не ищет текстовое описание, а вызывает симулятор, основанный на уравнениях баллистики.


3. Физическое моделирование (Physical Simulation)

Зачем нужен Level 3
Физические процессы описываются дифференциальными уравнениями, которые невозможно адекватно представить в виде текста или таблицы. LLM не может «посчитать» траекторию — она может лишь угадать, что приведёт к ошибкам.

Примеры задач

  • Расчёт механических напряжений в конструкции (метод конечных элементов).
  • Моделирование климата (уравнения атмосферной динамики).
  • Симуляция химических реакций (кинетические уравнения).
  • Прогнозирование распространения загрязнений (уравнения адвекции-диффузии).

Как RAG|Agentic RAG использует Level 3:

  1. Агент получает запрос: «Как изменится температура в реакторе при увеличении давления на 10%?»
  2. Вместо поиска текстового ответа агент находит в своём хранилище формальную модель реактора (систему ОДУ).
  3. Запускает симуляцию с новыми параметрами.
  4. Возвращает численный результат и график.

Инструменты SciPy, Simulink, OpenModelica, FEniCS.


4. Сложное планирование (Multi-agent Planning with Temporal Constraints)

Проблема Планирование действий в среде с несколькими агентами, временными окнами и ресурсными ограничениями требует формального описания состояний, действий и переходов. Текстовое описание плана не гарантирует выполнимости.

Level 3 представление PDDL (Planning Domain Definition Language) или Temporal PDDL, STRIPS, HTN (Hierarchical Task Networks).

Пример задачи

  • Координация группы дронов для доставки грузов в городе с учётом погоды, запретных зон и времени прибытия.
  • Планирование производственной линии с несколькими роботами и конвейерами.

Роль Agentic RAG

  • Агент хранит PDDL-домены и задачи в формализованном виде.
  • При запросе «Спланируй маршрут для трёх курьеров с учётом пробок» агент извлекает соответствующую модель, запускает планировщик (например, Fast Downward, OPTIC), получает последовательность действий и возвращает её пользователю.

Ключевой элемент временные constraints (deadline, duration, synchronisation) — их невозможно корректно обработать без формальной модели.


5. Научная гипотеза генерация (Scientific Hypothesis Generation)

Задача Автоматическое выдвижение новых гипотез на основе существующих данных и закономерностей. LLM может генерировать правдоподобные тексты, но для научной ценности гипотеза должна быть формально проверяемой.

Level 3 подход

  • Представление известных законов в виде уравнений (например, законы сохранения, термодинамические соотношения).
  • Использование символьной регрессии (например, PySR) для поиска новых математических выражений, объясняющих данные.
  • Генерация гипотезы в виде формальной модели, которую затем можно проверить экспериментально.

Пример:

  • Агент анализирует данные о росте популяции бактерий в разных условиях. На основе Level 3 модели (логистическое уравнение) он предлагает модификацию: «Добавить член, учитывающий конкуренцию за субстрат» и генерирует новое дифференциальное уравнение.

Связь с Agentic RAG

  • Агент использует RAG для извлечения релевантных научных статей (Level 1), извлекает из них параметры моделей (Level 2) и строит формальную модель (Level 3).
  • Затем запускает симуляцию и сравнивает с данными, выдавая гипотезу в виде уравнения.

6. Задачи, требующие explicit world model (явной модели мира)

Explicit world model — это формальное представление среды, которое агент может использовать для рассуждений «что, если» (counterfactual reasoning), планирования и обучения.

Когда нужен Level 3

  • Робототехника: модель динамики манипулятора (уравнения Лагранжа).
  • Экономическое прогнозирование: DSGE-модели (динамические стохастические модели общего равновесия).
  • Медицинская диагностика: модели фармакокинетики (дифференциальные уравнения концентрации лекарства).
  • Игровой AI: формальное описание правил игры (например, шахматы — доска и ходы в виде предикатов).

Пример Agentic RAG с explicit world model:

  • Агент-помощник врача: получает запрос «Как изменится дозировка препарата для пациента с почечной недостаточностью?»
  • Извлекает формальную фармакокинетическую модель (Level 3) и параметры пациента (Level 2).
  • Запускает симуляцию и выдаёт рекомендацию с графиком концентрации.

Преимущество ответ не «угадан» LLM, а вычислен на основе физиологии.


7. Сравнительная таблица: Level 1 vs Level 2 vs Level 3 для типовых задач

КритерийLevel 1 (текст)Level 2 (структура)Level 3 (формальная модель)
Физическое моделированиеНевозможно (только описание)Частично (таблицы параметров)Да (уравнения, симуляция)
Планирование с временными constraintsНе гарантирует выполнимостьМожно хранить расписания, но не проверятьДа (PDDL, проверка SAT)
Генерация гипотезПравдоподобные текстыСтатистические корреляцииДа (символьная регрессия)
Explicit world modelОтсутствуетФрагментарноПолная, исполняемая
Точность ответаНизкая (зависит от LLM)Средняя (зависит от данных)Высокая (детерминированная)
Вычислительные затратыНизкие (только LLM)Средние (запросы к БД)Высокие (симуляция)

8. Пример архитектуры Agentic RAG с Level 3

# Псевдокод агента, использующего формальную модель
class ScientificAgent:
    def __init__(self, retriever, model_registry):
        self.retriever = retriever          # RAG для Level 1/2
        self.model_registry = model_registry  # Хранилище Level 3 моделей (например, .pkl, .py)

    def answer(self, query):
        # 1. Определяем, нужна ли формальная модель
        intent = self.classify_intent(query)  # "simulation", "planning", "hypothesis"
        if intent in ["simulation", "planning"]:
            # 2. Извлекаем формальную модель
            model_id = self.retriever.retrieve_model(query)  # поиск по метаданным
            model = self.model_registry.load(model_id)
            # 3. Извлекаем параметры из Level 2 (таблицы, JSON)
            params = self.retriever.retrieve_parameters(query)
            # 4. Запускаем симуляцию / планировщик
            result = model.run(**params)
            # 5. Генерируем ответ с помощью LLM, используя result как контекст
            return self.llm.generate(f"Query: {query}\nSimulation result: {result}")
        else:
            # Обычный RAG
            docs = self.retriever.retrieve(query)
            return self.llm.generate(docs + query)

Ключевые компоненты

  • Model registry — база формальных моделей (уравнения, PDDL, нейросетевые симуляторы).
  • Retriever — должен уметь искать не только текст, но и метаданные моделей (теги, область применения).
  • LLM — используется для интерпретации результатов, а не для вычислений.

9. Связь с Agentic RAG

Level 3 — это естественное расширение возможностей агента. Без него Agentic RAG остаётся «умным поисковиком» с генерацией. С Level 3 агент становится вычислительным ассистентом, способным:

  • Проверять гипотезы (simulation-based verification).
  • Оптимизировать решения (планирование с обратной связью).
  • Объяснять результаты через формальные выводы.

Ограничения

  • Создание формальных моделей требует экспертизы и времени.
  • Не все задачи можно формализовать (творческие, социальные).
  • Высокая стоимость симуляций.

10. Пет-проект для закрепления

Задача Разработать агента, который отвечает на вопросы по физике маятника, используя Level 3 представление.

Инструменты

  • Python, scipy.integrate.solve_ivp для решения ОДУ.
  • LangChain или простой агент на transformers + chromadb.
  • Хранилище моделей: JSON-файл с описанием уравнений и параметров.

Шаги:

  1. Создайте формальную модель маятника: d²θ/dt² + (g/L)*sin(θ) = 0.
  2. Загрузите модель в registry (например, как функцию Python).
  3. Напишите retriever, который по запросу «период колебаний маятника длиной 1 м» находит модель и извлекает параметры (L=1, g=9.81).
  4. Реализуйте агента: получает запрос → определяет, что нужна симуляция → запускает solve_ivp → возвращает период и график.
  5. Добавьте RAG для контекстной информации (например, формулы из учебника).

Ожидаемый результат

  • Агент выдаёт точный численный ответ (например, «Период ≈ 2.007 с»), а не текстовое описание.
  • Можно задать уточняющие вопросы: «А если угол 30°?» — агент перезапускает симуляцию с новыми начальными условиями.

11. Связь с другими вопросами

ВопросТема
190Какие задачи решаются с Level 2 представлением (structured data)?
192Как реализовать Level 4 представление (executable code)?
185Что такое multi-agent системы в Agentic RAG?
180Как спроектировать Agentic RAG с поддержкой планирования?
195Как построить explicit world model для агента?
200Какие метрики оценивают качество формальных моделей?

12. Навигация


Навигация