В чем проблема «natural language bottleneck» для LLM?

Q: 1. Определение natural language bottleneck

- [[Вики/tokens per second\|Пропускная способность]] текста — ограничена скоростью чтения/письма человека (~40–60 бит/с) и плотностью упаковки смысла (символы, слова). - [[Вики/tokens per second\|Пропускная способность]] численных данных — может достигать гигабит в секунду (например, [[Вики/flow\|поток]] данных]] с метеоспутника).

Q: 2. Пример с численной моделью погоды

Рассмотрим задачу прогноза погоды. - Численная модель погоды (NWP — Prediction|Numerical Weather Prediction) оперирует сеткой с разрешением 1 км × 1 км × 100 уровней по высоте, шагом по времени 1 час, 10 переменными (температура, давление, влажность, ветер и т.д.). - Объём данных за сутки: ~10⁶ ячеек × 10 переменных × 24 шага × 32 бита (float) ≈ 10¹⁴ бит.

Q: 3. Информационный разрыв (information gap)

| Тип данных | Пример | Объём (бит) | Текстовое описание | Объём (бит) | Разрыв (порядки) | |------------|--------|-------------|---------------------|--------------|------------------| | Численная модель погоды | NWP на сутки | 10¹⁴ | «Завтра +15°C» | 10² | 12 | | Медицинское изображение (МРТ) | 512×512×200 вокселей | 10⁸ | «Опухоль в левом полушарии» | 10² | 6 |

Q: 4. Почему это проблема для LLM?

Последствия [[Вики/natural language bottleneck\|NLB]] для [[Вики/LLM\|LLM]] - Потеря точности — [[Вики/LLM\|LLM]] не может ответить на вопрос «Какая [[Вики/Temperature\|температура]] будет в 14:30 на улице Тверская?» с точностью до десятых градуса, так как в текстовом прогнозе такой детали нет.

Q: 5. Связь с RAG и Agentic RAG

Пример: - Без инструмента: [[Вики/GPT-4o\|LLM]] пишет «[[Вики/Temperature\|температура]] около 15°C» (потеря точности). - С инструментом: [[Вики/agent\|агент]] вызывает `get_temperature([[Вики/Linear Artificial Tomography\|lat]], lon, [[Вики/time\|time]])` → получает 15.234°C → возвращает «15.2°C» (сохранение точности).

Q: 6. Другие примеры проявления bottleneck

- Медицина: МРТ-снимок (10⁸ бит) → текстовое заключение радиолога (10³ бит). [[Вики/GPT-4o\|LLM]], работающая только с заключением, теряет информацию о форме, размере, текстуре опухоли. - Инженерия: CAD-модель детали (10⁹ бит) → текстовое описание «деталь цилиндрическая, диаметр 50 мм» (10² бит). [[Вики/GPT-4o\|LLM]] не сможет проверить допуски или рассчитать нагрузку.

Q: 7. Как измеряется bottleneck?

Метрика — [[Вики/Compression ratio\|коэффициент сжатия]] ([[Вики/Compression ratio\|compression ratio]]): \[ C = \frac{H_{\[[Вики/text\|text]]{original}}}{H_{\[[Вики/text\|text]]{[[Вики/text\|text]]}}} \] где \(H\) — [[Вики/Entropy\|энтропия]] (информационное содержание) в битах. Для практических оценок используют пропускную способность канала ([[Вики/channel\|channel]] [[Вики/Capacity\|capacity]]) в битах в секунду. Если [[Вики/GPT-4o\|LLM]] получает текстовый контекст со скоростью ~10³ бит/с (

Q: 8. Возможные решения

| Решение | Описание | Пример | |---------|----------|--------| | [[Вики/multimodal LLM\|Мультимодальные LLM]] | Модели, которые принимают на вход изображения, аудио, числовые ряды (например, GPT-4V, Gemini). | Загрузить график температуры вместо текста. | | [[Вики/numerical embeddings\|Численные эмбеддинги]] | Представление чисел в виде векторов, которые LLM может обрабатывать без токенизации. | Time Series Transformer. |

Краткий тезис

Natural language bottleneck (узкое горлышко естественного языка) — это фундаментальное ограничение пропускной способности текстового канала при передаче информации из высокоточных источников (численные модели, сенсоры, базы данных) в LLM. Разрыв между объёмом данных, генерируемых, например, численной моделью погоды (~10¹⁴ бит), и текстовым прогнозом (~10² бит) достигает 12 порядков. Это означает, что LLM, работающие исключительно с текстом, теряют критическую детализацию, что делает их непригодными для задач, требующих высокой точности (прогнозирование, инженерные расчёты, медицинская диагностика). Понимание этого bottleneck необходимо для проектирования Agentic RAG-систем, которые должны компенсировать потерю информации через внешние инструменты и мультимодальные каналы.

1. Определение natural language bottleneck

Natural language bottleneck (NLB) — термин, описывающий ситуацию, когда естественный язык (текст) выступает единственным интерфейсом между LLM и внешним миром, но его пропускная способность (количество информации, передаваемой в единицу времени) на много порядков ниже, чем у исходных данных.

Пропускная способность текста — ограничена скоростью чтения/письма человека (~40–60 бит/с) и плотностью упаковки смысла (символы, слова).
Пропускная способность численных данных — может достигать гигабит в секунду (например, поток данных]] с метеоспутника).

LLM «видят» мир только через текст, поэтому при переводе численных массивов, изображений, временных рядов в текст происходит сжатие с потерями. Это и есть bottleneck.

2. Пример с численной моделью погоды

Рассмотрим задачу прогноза погоды.

Численная модель погоды (NWP — Prediction|Numerical Weather Prediction) оперирует сеткой с разрешением 1 км × 1 км × 100 уровней по высоте, шагом по времени 1 час, 10 переменными (температура, давление, влажность, ветер и т.д.).
- Объём данных за сутки: ~10⁶ ячеек × 10 переменных × 24 шага × 32 бита (float) ≈ 10¹⁴ бит.
Текстовый прогноз для человека: «Завтра в Москве +15°C, переменная облачность, ветер 5 м/с».
- Объём: ~200 символов × 8 бит ≈ 10² бит.

Информационный разрыв (information gap) = 10¹⁴ / 10² = 10¹² (12 порядков).

LLM, обученная на текстах, может сгенерировать только текстовый прогноз. Она не может восстановить утраченные детали: распределение температуры по городу, вероятность осадков в конкретном районе, доверительные интервалы.

3. Информационный разрыв (information gap)

Information gap — количественная мера NLB, показывающая, во сколько раз объём исходных данных превышает объём текстового представления.

Тип данных	Пример	Объём (бит)	Текстовое описание	Объём (бит)	Разрыв (порядки)
Численная модель погоды	NWP на сутки	10¹⁴	«Завтра +15°C»	10²	12
Медицинское изображение (МРТ)	512×512×200 вокселей	10⁸	«Опухоль в левом полушарии»	10²	6
Финансовый временной ряд	1 млн тиков за день	10⁷	«Рынок вырос на 2%»	10²	5
Сенсор IoT (температура, давление)	1000 датчиков, 1 Гц	10⁶	«Температура в норме»	10²	4

Чем больше разрыв, тем сильнее LLM зависит от аппроксимации и обобщения, что ведёт к потере точности.

4. Почему это проблема для LLM?

LLM (Large Language Models) — это модели, обученные предсказывать следующий токен на текстовых корпусах. Они не имеют прямого доступа к численным или мультимедийным данным, если те не преобразованы в текст.

Последствия NLB для LLM

Потеря точности — LLM не может ответить на вопрос «Какая температура будет в 14:30 на улице Тверская?» с точностью до десятых градуса, так как в текстовом прогнозе такой детали нет.
Галлюцинации — при попытке «додумать» недостающие детали LLM может сгенерировать правдоподобный, но неверный ответ.
Неспособность к численным рассуждениям — задачи, требующие арифметики или статистики, решаются плохо (например, «Сравни среднюю температуру за неделю с климатической нормой»).
Ограничение для RAG|Agentic RAG — агенты, которые должны выполнять точные действия (расчёт дозировки лекарства, настройка оборудования), не могут полагаться только на текстовый канал.

5. Связь с RAG и Agentic RAG

RAG (Retrieval-Augmented Generation) частично смягчает NLB, подгружая в контекст релевантные документы. Но если документы — тоже текст, bottleneck сохраняется.

Agentic RAG — архитектура, в которой LLM-агент может вызывать внешние инструменты (калькуляторы, базы данных, API численных моделей). Это позволяет обходить NLB: агент не переводит все данные в текст, а использует инструмент для точного вычисления и возвращает только результат.

Пример:

Без инструмента: LLM пишет «температура около 15°C» (потеря точности).
С инструментом: агент вызывает get_temperature(lat, lon, time) → получает 15.234°C → возвращает «15.2°C» (сохранение точности).

Таким образом, Agentic RAG — один из главных способов преодоления NLB.

6. Другие примеры проявления bottleneck

Медицина: МРТ-снимок (10⁸ бит) → текстовое заключение радиолога (10³ бит). LLM, работающая только с заключением, теряет информацию о форме, размере, текстуре опухоли.
Инженерия: CAD-модель детали (10⁹ бит) → текстовое описание «деталь цилиндрическая, диаметр 50 мм» (10² бит). LLM не сможет проверить допуски или рассчитать нагрузку.
Финансы: Поток котировок (10⁷ бит/день) → новостной обзор (10⁴ бит). LLM не уловит микроструктуру рынка.

7. Как измеряется bottleneck?

Метрика — коэффициент сжатия (compression ratio):

[ C = \frac{H_{[text](/wiki/text){original}}}{H_{[text](/wiki/text){text}}} ]

где (H) — энтропия (информационное содержание) в битах.

Для практических оценок используют пропускную способность канала (channel capacity) в битах в секунду. Если LLM получает текстовый контекст со скоростью ~10³ бит/с (через API), а исходные данные генерируются со скоростью 10⁶ бит/с, bottleneck очевиден.

Инструменты для измерения:

Информационная энтропия Шеннона для оценки объёма данных.
BPE-токенизация — показывает, сколько токенов нужно для представления числа (например, число 3.1415926535 может занимать 10+ токенов, что неэффективно).

8. Возможные решения

Решение	Описание	Пример
Мультимодальные LLM	Модели, которые принимают на вход изображения, аудио, числовые ряды (например, GPT-4V, Gemini).	Загрузить график температуры вместо текста.
Численные эмбеддинги	Представление чисел в виде векторов, которые LLM может обрабатывать без токенизации.	Time Series Transformer.
Гибридные системы (Agentic RAG)	LLM + инструменты (калькулятор, SQL, API).	Агент вызывает `math.sqrt()` вместо текстового описания.
Семантическое сжатие	Использование специальных токенов для чисел (например, кодирование float в один токен).	Tokenization by magnitude (rare).
Цепочки рассуждений (Chain-of-Thought)	Пошаговое разбиение задачи, но bottleneck остаётся на этапе ввода.	Не решает проблему, только улучшает логику.

Наиболее перспективный для Agentic RAG — гибридный подход, так как он не требует изменения архитектуры LLM.

9. Ограничения current LLM в работе с численными данными

Даже современные LLM (GPT-4, Claude 3) демонстрируют слабые места:

Ошибки в арифметике — особенно с большими числами и плавающей точкой.
Неспособность к интерполяции — LLM не может восстановить промежуточные значения, если они не были в тексте.
Чувствительность к форматированию — число «1,000» и «1000» могут восприниматься по-разному.
Отсутствие понимания единиц измерения — «15°C» и «15 K» — разные величины, но LLM может их спутать.

Эти ограничения — прямое следствие NLB.

10. Заключение: важность для проектирования AI-агентов

Natural language bottleneck — не просто академическая концепция, а практическое ограничение, которое необходимо учитывать при разработке Agentic RAG-систем.

Если задача требует высокой точности (прогноз погоды, медицинская диагностика, управление роботом), нельзя полагаться только на текстовый канал.
Архитектура должна включать инструменты (калькуляторы, базы данных, симуляторы), которые принимают на вход точные данные и возвращают точные результаты.
Оценка качества агента должна включать метрики информационной полноты (насколько ответ сохраняет детализацию исходных данных).

Понимание NLB помогает инженеру осознанно выбирать, когда использовать RAG, а когда — Agentic RAG с инструментами.

Пет-проект для закрепления

Задача: Построить агента, который принимает численный временной ряд (температура за 7 дней) и генерирует текстовый прогноз на следующий день. Сравнить точность с исходной численной моделью (ARIMA).

Инструменты: Python, pandas, numpy, statsmodels (ARIMA), OpenAI API (GPT-4), библиотека для оценки (scikit-learn).

Шаги:

Сгенерировать синтетический временной ряд температуры с трендом и шумом (100 точек).
Обучить ARIMA на первых 90 точках, получить численный прогноз на 10 точек (точные значения).
Передать последние 7 точек в LLM с промптом: «Предскажи температуру на следующий день на основе этих данных: [7 чисел]».
Собрать ответ LLM (текст, например, «около 22°C»).
Извлечь численное значение из ответа (регуляркой).
Сравнить MAE (средняя абсолютная ошибка) между ARIMA и LLM.

Ожидаемый результат: MAE для LLM будет в 5–10 раз выше, чем для ARIMA, что наглядно демонстрирует NLB. Дополнительно можно показать, что если дать LLM доступ к statsmodels через инструмент (Agentic RAG), ошибка снижается до уровня ARIMA.

Расширение: Добавить мультимодальный канал — передать график ряда (изображение) в GPT-4V и сравнить точность.

Связь с другими вопросами

Вопрос	Тема
180	Что такое Agentic RAG и как он устроен?
182	Как преодолеть natural language bottleneck в Agentic RAG?
183	Роль мультимодальных LLM в преодолении bottleneck
184	Проектирование инструментов для численных данных в RAG
185	Оценка faithfulness в Agentic RAG с учётом NLB
190	Сравнение текстового и численного представления в retrieval

Краткий тезис

1. Определение natural language bottleneck

Пропускная способность текста — ограничена скоростью чтения/письма человека (~40–60 бит/с) и плотностью упаковки смысла (символы, слова).
Пропускная способность численных данных — может достигать гигабит в секунду (например, поток данных]] с метеоспутника).

2. Пример с численной моделью погоды

Рассмотрим задачу прогноза погоды.

Численная модель погоды (NWP — Prediction|Numerical Weather Prediction) оперирует сеткой с разрешением 1 км × 1 км × 100 уровней по высоте, шагом по времени 1 час, 10 переменными (температура, давление, влажность, ветер и т.д.).
- Объём данных за сутки: ~10⁶ ячеек × 10 переменных × 24 шага × 32 бита (float) ≈ 10¹⁴ бит.
Текстовый прогноз для человека: «Завтра в Москве +15°C, переменная облачность, ветер 5 м/с».
- Объём: ~200 символов × 8 бит ≈ 10² бит.

Информационный разрыв (information gap) = 10¹⁴ / 10² = 10¹² (12 порядков).

3. Информационный разрыв (information gap)

Тип данных	Пример	Объём (бит)	Текстовое описание	Объём (бит)	Разрыв (порядки)
Численная модель погоды	NWP на сутки	10¹⁴	«Завтра +15°C»	10²	12
Медицинское изображение (МРТ)	512×512×200 вокселей	10⁸	«Опухоль в левом полушарии»	10²	6
Финансовый временной ряд	1 млн тиков за день	10⁷	«Рынок вырос на 2%»	10²	5
Сенсор IoT (температура, давление)	1000 датчиков, 1 Гц	10⁶	«Температура в норме»	10²	4

Чем больше разрыв, тем сильнее LLM зависит от аппроксимации и обобщения, что ведёт к потере точности.

4. Почему это проблема для LLM?

Последствия NLB для LLM

Потеря точности — LLM не может ответить на вопрос «Какая температура будет в 14:30 на улице Тверская?» с точностью до десятых градуса, так как в текстовом прогнозе такой детали нет.
Галлюцинации — при попытке «додумать» недостающие детали LLM может сгенерировать правдоподобный, но неверный ответ.
Неспособность к численным рассуждениям — задачи, требующие арифметики или статистики, решаются плохо (например, «Сравни среднюю температуру за неделю с климатической нормой»).
Ограничение для RAG|Agentic RAG — агенты, которые должны выполнять точные действия (расчёт дозировки лекарства, настройка оборудования), не могут полагаться только на текстовый канал.

5. Связь с RAG и Agentic RAG

Пример:

Без инструмента: LLM пишет «температура около 15°C» (потеря точности).
С инструментом: агент вызывает get_temperature(lat, lon, time) → получает 15.234°C → возвращает «15.2°C» (сохранение точности).

Таким образом, Agentic RAG — один из главных способов преодоления NLB.

6. Другие примеры проявления bottleneck

Медицина: МРТ-снимок (10⁸ бит) → текстовое заключение радиолога (10³ бит). LLM, работающая только с заключением, теряет информацию о форме, размере, текстуре опухоли.
Инженерия: CAD-модель детали (10⁹ бит) → текстовое описание «деталь цилиндрическая, диаметр 50 мм» (10² бит). LLM не сможет проверить допуски или рассчитать нагрузку.
Финансы: Поток котировок (10⁷ бит/день) → новостной обзор (10⁴ бит). LLM не уловит микроструктуру рынка.

7. Как измеряется bottleneck?

Метрика — коэффициент сжатия (compression ratio):

[ C = \frac{H_{[text](/wiki/text){original}}}{H_{[text](/wiki/text){text}}} ]

где (H) — энтропия (информационное содержание) в битах.

Инструменты для измерения:

Информационная энтропия Шеннона для оценки объёма данных.
BPE-токенизация — показывает, сколько токенов нужно для представления числа (например, число 3.1415926535 может занимать 10+ токенов, что неэффективно).

8. Возможные решения

Решение	Описание	Пример
Мультимодальные LLM	Модели, которые принимают на вход изображения, аудио, числовые ряды (например, GPT-4V, Gemini).	Загрузить график температуры вместо текста.
Численные эмбеддинги	Представление чисел в виде векторов, которые LLM может обрабатывать без токенизации.	Time Series Transformer.
Гибридные системы (Agentic RAG)	LLM + инструменты (калькулятор, SQL, API).	Агент вызывает `math.sqrt()` вместо текстового описания.
Семантическое сжатие	Использование специальных токенов для чисел (например, кодирование float в один токен).	Tokenization by magnitude (rare).
Цепочки рассуждений (Chain-of-Thought)	Пошаговое разбиение задачи, но bottleneck остаётся на этапе ввода.	Не решает проблему, только улучшает логику.

Наиболее перспективный для Agentic RAG — гибридный подход, так как он не требует изменения архитектуры LLM.

9. Ограничения current LLM в работе с численными данными

Даже современные LLM (GPT-4, Claude 3) демонстрируют слабые места:

Ошибки в арифметике — особенно с большими числами и плавающей точкой.
Неспособность к интерполяции — LLM не может восстановить промежуточные значения, если они не были в тексте.
Чувствительность к форматированию — число «1,000» и «1000» могут восприниматься по-разному.
Отсутствие понимания единиц измерения — «15°C» и «15 K» — разные величины, но LLM может их спутать.

Эти ограничения — прямое следствие NLB.

10. Заключение: важность для проектирования AI-агентов

Если задача требует высокой точности (прогноз погоды, медицинская диагностика, управление роботом), нельзя полагаться только на текстовый канал.
Архитектура должна включать инструменты (калькуляторы, базы данных, симуляторы), которые принимают на вход точные данные и возвращают точные результаты.
Оценка качества агента должна включать метрики информационной полноты (насколько ответ сохраняет детализацию исходных данных).

Понимание NLB помогает инженеру осознанно выбирать, когда использовать RAG, а когда — Agentic RAG с инструментами.

Пет-проект для закрепления

Инструменты: Python, pandas, numpy, statsmodels (ARIMA), OpenAI API (GPT-4), библиотека для оценки (scikit-learn).

Шаги:

Сгенерировать синтетический временной ряд температуры с трендом и шумом (100 точек).
Обучить ARIMA на первых 90 точках, получить численный прогноз на 10 точек (точные значения).
Передать последние 7 точек в LLM с промптом: «Предскажи температуру на следующий день на основе этих данных: [7 чисел]».
Собрать ответ LLM (текст, например, «около 22°C»).
Извлечь численное значение из ответа (регуляркой).
Сравнить MAE (средняя абсолютная ошибка) между ARIMA и LLM.

Расширение: Добавить мультимодальный канал — передать график ряда (изображение) в GPT-4V и сравнить точность.

Связь с другими вопросами

Вопрос	Тема
180	Что такое Agentic RAG и как он устроен?
182	Как преодолеть natural language bottleneck в Agentic RAG?
183	Роль мультимодальных LLM в преодолении bottleneck
184	Проектирование инструментов для численных данных в RAG
185	Оценка faithfulness в Agentic RAG с учётом NLB
190	Сравнение текстового и численного представления в retrieval

Краткий тезис

1. Определение natural language bottleneck

2. Пример с численной моделью погоды

3. Информационный разрыв (information gap)

4. Почему это проблема для LLM?

5. Связь с RAG и Agentic RAG

6. Другие примеры проявления bottleneck

7. Как измеряется bottleneck?

8. Возможные решения

9. Ограничения current LLM в работе с численными данными

10. Заключение: важность для проектирования AI-агентов

Пет-проект для закрепления

Связь с другими вопросами

Навигация

В чем проблема «natural language bottleneck» для LLM?

Краткий тезис

1. Определение natural language bottleneck

2. Пример с численной моделью погоды

3. Информационный разрыв (information gap)

4. Почему это проблема для LLM?

5. Связь с RAG и Agentic RAG

6. Другие примеры проявления bottleneck

7. Как измеряется bottleneck?

8. Возможные решения

9. Ограничения current LLM в работе с численными данными

10. Заключение: важность для проектирования AI-агентов

Пет-проект для закрепления

Связь с другими вопросами

Навигация