Как вы оцениваете cost-effectiveness LLM-пайплайна?

Q: 1. Термин: Cost-effectiveness (экономическая эффективность)

Почему это важно - LLM-пайплайны могут быть дорогими: вызов [[Вики/LLM\|GPT-4]] стоит в 10–30 раз дороже [[Вики/gpt-3.5-turbo\|GPT-3.5]], а [[Вики/SFT\|fine-tuning]] большой модели требует тысяч долларов. - Без оценки [[Вики/Efficiency\|cost-effectiveness]] легко потратить [[Вики/бюджет\|бюджет]] на неоправданно дорогое решение, которое даёт лишь незначительный прирост качества.

Q: 2. Метрика: Cost per good answer

Формула: Cost per good answer = Total LLM costs / Number of answers with faithfulness > threshold Пример расчёта - За месяц [[Вики/пайплайн\|пайплайн]] обработал 100 000 запросов. - Общие [[Вики/API costs\|затраты на API]]: $5 000. - Из них 80 000 ответов имеют [[Вики/accuracy\|faithfulness]] > 0.9 (по оценке [[Вики/LLM-as-a-judge\|LLM-as-a-judge]] или человека).

Q: 3. Компоненты затрат: детальный разбор

| Компонент | Пример | Как влияет на cost-effectiveness | |-----------|--------|----------------------------------| | **API costs (входные токены)** | $0.01/1K токенов для GPT-4 | Чем длиннее контекст (RAG, история диалога), тем выше затраты. | | **API costs (выходные токены)** | $0.03/1K токенов для GPT-4 | Длинные ответы дороже. Можно ограничивать max_tokens. |

Q: 4. Trade-offs: качество vs стоимость

Основной [[Вики/trade-off\|компромисс]] более дорогие модели ([[Вики/gpt-3.5-turbo\|GPT-4]], [[Вики/Claude 3 Opus\|Claude 3 Opus]]) дают более точные и faithful ответы, но их использование может быть неоправданным для задач, где достаточно «достаточно хорошего» качества. Когда выгодно использовать дорогую [[Вики/model\|модель]]

Q: 5.1 Кэширование (caching)

- Кэшируйте ответы на частые запросы (например, с помощью Redis или встроенного кэша LLM-провайдера). - Impact снижение затрат на 30–70% для повторяющихся запросов.

Q: 5.2 Batch inference (пакетная обработка)

- Объединяйте несколько запросов в один batch (если модель поддерживает). - Impact снижение стоимости за счёт разделения overhead.

Q: 5.3 Prompt compression

- Используйте техники сжатия промптов (например, [[Вики/Prompt compression\|LLMLingua]], [[Вики/Selective Context\|Selective Context]]), чтобы уменьшить количество входных токенов. - Impact снижение затрат на 20–50% без потери качества.

Q: 5.4 Model distillation (дистилляция)

- Обучите маленькую модель (student) имитировать большую (teacher) на размеченных данных. - Impact значительное снижение стоимости инференса при сохранении 90–95% качества.

Краткий тезис

Cost-effectiveness LLM-пайплайна — это отношение полученного качества (accuracy, faithfulness, user satisfaction) к затратам (токены, вычислительные ресурсы, latency). Ключевая метрика — Cost per good answer: (общие затраты на LLM) / (количество ответов с faithfulness > 0.9). Оптимизация cost-effectiveness требует баланса: гоняться за максимальной accuracy, используя самую дорогую модель, часто невыгодно — лучше подобрать модель и инфраструктуру так, чтобы получать «достаточно хорошие» ответы с минимальными затратами.

1. Термин: Cost-effectiveness (экономическая эффективность)

Cost-effectiveness — это показатель, который связывает затраты ресурсов (денег, времени, вычислительной мощности) с достигнутым результатом (качеством ответов). В контексте LLM-пайплайна это означает, что мы не просто смотрим на accuracy или faithfulness, а нормируем их на стоимость одного запроса.

Почему это важно

LLM-пайплайны могут быть дорогими: вызов GPT-4 стоит в 10–30 раз дороже GPT-3.5, а fine-tuning большой модели требует тысяч долларов.
Без оценки cost-effectiveness легко потратить бюджет на неоправданно дорогое решение, которое даёт лишь незначительный прирост качества.
Бизнес-цель — максимизировать ценность (удовлетворённость пользователей, конверсию) при ограниченных ресурсах.

Основные компоненты затрат

API costs — плата за токены (входные + выходные) для коммерческих моделей (OpenAI, Anthropic, Google).
Compute costs — аренда GPU/TPU для self-hosted моделей (например, Llama 2, Mistral).
Storage costs — хранение векторных индексов, кэша, логов.
Human evaluation costs — оплата аннотаторов для оценки faithfulness, relevance.
Latency costs — косвенные потери от медленных ответов (падение пользовательского опыта).

2. Метрика: Cost per good answer

Cost per good answer — это отношение общих затрат на LLM-пайплайн к количеству ответов, которые прошли порог качества (например, faithfulness > 0.9).

Формула:

Cost per good answer = Total LLM costs / Number of answers with faithfulness > threshold

Пример расчёта

За месяц пайплайн обработал 100 000 запросов.
Общие затраты на API: $5 000.
Из них 80 000 ответов имеют faithfulness > 0.9 (по оценке LLM-as-a-judge или человека).
Cost per good answer = $5 000 / 80 000 = $0.0625 (6.25 центов за хороший ответ).

Почему порог faithfulness > 0.9

Faithfulness — метрика, показывающая, насколько ответ соответствует предоставленным документам (без галлюцинаций). Для многих бизнес-сценариев (поддержка, юридические консультации) faithfulness критичен.
Порог можно адаптировать: для творческих задач (генерация текста) можно использовать relevance или user satisfaction.

Вариации метрики

Cost per acceptable answer — если порог ниже (например, faithfulness > 0.7).
Cost per satisfied user — если есть данные о пользовательских оценках.
ROI (Return on Investment) = (выручка от хороших ответов - затраты) / затраты.

3. Компоненты затрат: детальный разбор

Компонент	Пример	Как влияет на cost-effectiveness
API costs (входные токены)	$0.01/1K токенов для GPT-4	Чем длиннее контекст (RAG, история диалога), тем выше затраты.
API costs (выходные токены)	$0.03/1K токенов для GPT-4	Длинные ответы дороже. Можно ограничивать max_tokens.
Compute (self-hosted)	$2/час за A100	Зависит от размера модели, batch size, throughput.
Human evaluation	$0.10 за оценку одного ответа	Нужен для калибровки LLM-as-a-judge, но дорогой.
Latency	>5 секунд → падение конверсии на 20%	Косвенные потери, которые сложно измерить, но важны.

Таблица: Сравнение стоимости моделей (ориентировочно)

Модель	Стоимость за 1K токенов (вход)	Стоимость за 1K токенов (выход)	Относительная cost-effectiveness
GPT-4o	$0.005	$0.015	Низкая (дорого, но высокое качество)
GPT-4o-mini	$0.00015	$0.0006	Высокая (дёшево, хорошее качество)
Claude 3 Haiku	$0.00025	$0.00125	Высокая
Llama 3 8B (self-hosted)	~$0.0001	~$0.0001	Очень высокая (но нужно учитывать compute)

4. Trade-offs: качество vs стоимость

Основной компромисс более дорогие модели (GPT-4, Claude 3 Opus) дают более точные и faithful ответы, но их использование может быть неоправданным для задач, где достаточно «достаточно хорошего» качества.

Когда выгодно использовать дорогую модель

Высокая цена ошибки (медицинские диагнозы, юридические консультации).
Необходимость минимального количества галлюцинаций.
Сложные запросы, требующие глубокого понимания.

Когда выгодно использовать дешёвую модель

Массовые запросы (чат-бот поддержки, FAQ).
Задачи с низкими требованиями к точности (генерация идей, суммаризация).
Возможность fine-tune дешёвой модели на специфических данных для повышения качества.

Пример trade-off

Пайплайн обрабатывает 1 млн запросов в месяц.
Вариант A: GPT-4o → cost per good answer = $0.10, faithfulness = 0.95.
Вариант B: GPT-4o-mini + fine-tune → cost per good answer = $0.02, faithfulness = 0.92.
Для бизнеса вариант B может быть более cost-effective, если разница в faithfulness не критична.

5. Оптимизация cost-effectiveness

5.1 Кэширование (caching)

Кэшируйте ответы на частые запросы (например, с помощью Redis или встроенного кэша LLM-провайдера).
Impact снижение затрат на 30–70% для повторяющихся запросов.

5.2 Batch inference (пакетная обработка)

Объединяйте несколько запросов в один batch (если модель поддерживает).
Impact снижение стоимости за счёт разделения overhead.

5.3 Prompt compression

Используйте техники сжатия промптов (например, LLMLingua, Selective Context), чтобы уменьшить количество входных токенов.
Impact снижение затрат на 20–50% без потери качества.

5.4 Model distillation (дистилляция)

Обучите маленькую модель (student) имитировать большую (teacher) на размеченных данных.
Impact значительное снижение стоимости инференса при сохранении 90–95% качества.

5.5 Speculative decoding (спекулятивное декодирование)

Используйте маленькую модель для генерации черновика, а большую — для верификации.
Impact ускорение в 2–3 раза без потери качества (особенно для self-hosted моделей).

5.6 Fine-tuning на специфической задаче

Fine-tune дешёвой модели (например, Llama 3 8B) на данных вашего домена.
Impact повышение faithfulness и relevance, что позволяет снизить порог cost per good answer.

6. Мониторинг cost-effectiveness в production

Необходимые метрики (дашборд):

Cost per query — средняя стоимость одного запроса.
Cost per good answer — с порогом faithfulness > 0.9.
Throughput — количество запросов в минуту/час.
Latency p50/p95 — медианное и 95-перцентильное время ответа.
Faithfulness score — среднее значение по всем ответам (оценка LLM-as-a-judge).

A/B тестирование

Запустите две версии пайплайна: с дорогой моделью (контроль) и с оптимизированной (эксперимент).
Сравните cost per good answer и user satisfaction (например, thumbs up/down).
Пример: GPT-4o vs GPT-4o-mini + кэширование. Если cost per good answer снизился на 60% при падении faithfulness на 0.03, эксперимент успешен.

Инструменты

LangSmith / Weights & Biases — трекинг экспериментов и затрат.
Grafana + Prometheus — мониторинг в реальном времени.
Custom logger — запись токенов, latency, метрик качества.

7. Пример расчёта cost-effectiveness для RAG-пайплайна

Исходные данные

Модель: GPT-4o-mini (стоимость: $0.00015/1K входных токенов, $0.0006/1K выходных).
Средняя длина запроса: 500 токенов (вход).
Средняя длина ответа: 200 токенов (выход).
Количество запросов в день: 10 000.
Доля ответов с faithfulness > 0.9: 85% (по оценке LLM-as-a-judge).

Расчёт

Затраты на один запрос: (500 * $0.00015/1000) + (200 * $0.0006/1000) = $0.000075 + $0.00012 = $0.000195.
Дневные затраты: 10 000 * $0.000195 = $1.95.
Количество хороших ответов в день: 10 000 * 0.85 = 8 500.
Cost per good answer: $1.95 / 8 500 = $0.000229 (0.023 цента).

Сравнение с GPT-4o

Стоимость одного запроса: (500 * $0.005/1000) + (200 * $0.015/1000) = $0.0025 + $0.003 = $0.0055.
Дневные затраты: $55.
Доля хороших ответов: 95% (предположим).
Cost per good answer: $55 / 9 500 = $0.00579 (0.58 цента).
Вывод GPT-4o-mini в 25 раз дешевле за хороший ответ, при этом faithfulness всего на 10% ниже. Для большинства сценариев это более cost-effective.

8. Ошибки при оценке cost-effectiveness

Гонка за accuracy без учёта стоимости. Использование самой дорогой модели для всех запросов, даже когда дешёвая даёт приемлемое качество.
Игнорирование косвенных затрат Например, latency, которая снижает конверсию, или затраты на человеческую оценку.
Неучёт variance Cost per good answer может сильно варьироваться в зависимости от сложности запроса. Нужно считать не только среднее, но и распределение.
Субъективный порог faithfulness Порог 0.9 может быть слишком строгим для некоторых задач (например, креативное письмо). Лучше калибровать порог под бизнес-метрики (user satisfaction, conversion).
Отсутствие A/B тестирования Оптимизация cost-effectiveness без экспериментального подтверждения может привести к ухудшению пользовательского опыта.

Пет-проект для закрепления

Задача Построить дашборд cost-effectiveness для LLM-пайплайна, который автоматически считает Cost per good answer и предлагает рекомендации по оптимизации.

Инструменты

Python (FastAPI для сервиса, Pandas для анализа).
OpenAI API (или любой LLM).
LangChain / LangSmith для трекинга.
Streamlit / Grafana для визуализации.
SQLite / PostgreSQL для хранения логов.

Шаги:

Создайте простой RAG-пайплайн (ChromaDB + OpenAI embeddings + GPT-4o-mini).
Для каждого запроса логируйте: количество токенов (вход/выход), latency, faithfulness (оценка через LLM-as-a-judge).
Рассчитайте cost per query и cost per good answer (порог faithfulness > 0.9).
Реализуйте A/B тест: одна ветка использует GPT-4o-mini, другая — GPT-4o. Сравните cost-effectiveness.
Добавьте кэширование (Redis) и измерьте его влияние.
Визуализируйте метрики на дашборде: временные ряды, распределение, сравнение веток.

Ожидаемый результат

Работающий дашборд, который показывает, какая конфигурация пайплайна наиболее cost-effective.
Отчёт с рекомендациями: например, «использовать GPT-4o-mini с кэшированием для 80% запросов, GPT-4o только для сложных».

Связь с другими вопросами

Вопрос	Тема
138	Как оценивать faithfulness ответов LLM
140	Какие метрики качества LLM-пайплайна вы знаете
141	Как проводить A/B тестирование LLM-пайплайна
142	Как мониторить LLM-пайплайн в production
143	Как уменьшить latency LLM-пайплайна
144	Как выбирать модель для LLM-пайплайна

Краткий тезис

1. Термин: Cost-effectiveness (экономическая эффективность)

Почему это важно

LLM-пайплайны могут быть дорогими: вызов GPT-4 стоит в 10–30 раз дороже GPT-3.5, а fine-tuning большой модели требует тысяч долларов.
Без оценки cost-effectiveness легко потратить бюджет на неоправданно дорогое решение, которое даёт лишь незначительный прирост качества.
Бизнес-цель — максимизировать ценность (удовлетворённость пользователей, конверсию) при ограниченных ресурсах.

Основные компоненты затрат

API costs — плата за токены (входные + выходные) для коммерческих моделей (OpenAI, Anthropic, Google).
Compute costs — аренда GPU/TPU для self-hosted моделей (например, Llama 2, Mistral).
Storage costs — хранение векторных индексов, кэша, логов.
Human evaluation costs — оплата аннотаторов для оценки faithfulness, relevance.
Latency costs — косвенные потери от медленных ответов (падение пользовательского опыта).

2. Метрика: Cost per good answer

Формула:

Cost per good answer = Total LLM costs / Number of answers with faithfulness > threshold

Пример расчёта

За месяц пайплайн обработал 100 000 запросов.
Общие затраты на API: $5 000.
Из них 80 000 ответов имеют faithfulness > 0.9 (по оценке LLM-as-a-judge или человека).
Cost per good answer = $5 000 / 80 000 = $0.0625 (6.25 центов за хороший ответ).

Почему порог faithfulness > 0.9

Faithfulness — метрика, показывающая, насколько ответ соответствует предоставленным документам (без галлюцинаций). Для многих бизнес-сценариев (поддержка, юридические консультации) faithfulness критичен.
Порог можно адаптировать: для творческих задач (генерация текста) можно использовать relevance или user satisfaction.

Вариации метрики

Cost per acceptable answer — если порог ниже (например, faithfulness > 0.7).
Cost per satisfied user — если есть данные о пользовательских оценках.
ROI (Return on Investment) = (выручка от хороших ответов - затраты) / затраты.

3. Компоненты затрат: детальный разбор

Компонент	Пример	Как влияет на cost-effectiveness
API costs (входные токены)	$0.01/1K токенов для GPT-4	Чем длиннее контекст (RAG, история диалога), тем выше затраты.
API costs (выходные токены)	$0.03/1K токенов для GPT-4	Длинные ответы дороже. Можно ограничивать max_tokens.
Compute (self-hosted)	$2/час за A100	Зависит от размера модели, batch size, throughput.
Human evaluation	$0.10 за оценку одного ответа	Нужен для калибровки LLM-as-a-judge, но дорогой.
Latency	>5 секунд → падение конверсии на 20%	Косвенные потери, которые сложно измерить, но важны.

Таблица: Сравнение стоимости моделей (ориентировочно)

Модель	Стоимость за 1K токенов (вход)	Стоимость за 1K токенов (выход)	Относительная cost-effectiveness
GPT-4o	$0.005	$0.015	Низкая (дорого, но высокое качество)
GPT-4o-mini	$0.00015	$0.0006	Высокая (дёшево, хорошее качество)
Claude 3 Haiku	$0.00025	$0.00125	Высокая
Llama 3 8B (self-hosted)	~$0.0001	~$0.0001	Очень высокая (но нужно учитывать compute)

4. Trade-offs: качество vs стоимость

Когда выгодно использовать дорогую модель

Высокая цена ошибки (медицинские диагнозы, юридические консультации).
Необходимость минимального количества галлюцинаций.
Сложные запросы, требующие глубокого понимания.

Когда выгодно использовать дешёвую модель

Массовые запросы (чат-бот поддержки, FAQ).
Задачи с низкими требованиями к точности (генерация идей, суммаризация).
Возможность fine-tune дешёвой модели на специфических данных для повышения качества.

Пример trade-off

Пайплайн обрабатывает 1 млн запросов в месяц.
Вариант A: GPT-4o → cost per good answer = $0.10, faithfulness = 0.95.
Вариант B: GPT-4o-mini + fine-tune → cost per good answer = $0.02, faithfulness = 0.92.
Для бизнеса вариант B может быть более cost-effective, если разница в faithfulness не критична.

5. Оптимизация cost-effectiveness

5.1 Кэширование (caching)

Кэшируйте ответы на частые запросы (например, с помощью Redis или встроенного кэша LLM-провайдера).
Impact снижение затрат на 30–70% для повторяющихся запросов.

5.2 Batch inference (пакетная обработка)

Объединяйте несколько запросов в один batch (если модель поддерживает).
Impact снижение стоимости за счёт разделения overhead.

5.3 Prompt compression

Используйте техники сжатия промптов (например, LLMLingua, Selective Context), чтобы уменьшить количество входных токенов.
Impact снижение затрат на 20–50% без потери качества.

5.4 Model distillation (дистилляция)

Обучите маленькую модель (student) имитировать большую (teacher) на размеченных данных.
Impact значительное снижение стоимости инференса при сохранении 90–95% качества.

5.5 Speculative decoding (спекулятивное декодирование)

Используйте маленькую модель для генерации черновика, а большую — для верификации.
Impact ускорение в 2–3 раза без потери качества (особенно для self-hosted моделей).

5.6 Fine-tuning на специфической задаче

Fine-tune дешёвой модели (например, Llama 3 8B) на данных вашего домена.
Impact повышение faithfulness и relevance, что позволяет снизить порог cost per good answer.

6. Мониторинг cost-effectiveness в production

Необходимые метрики (дашборд):

Cost per query — средняя стоимость одного запроса.
Cost per good answer — с порогом faithfulness > 0.9.
Throughput — количество запросов в минуту/час.
Latency p50/p95 — медианное и 95-перцентильное время ответа.
Faithfulness score — среднее значение по всем ответам (оценка LLM-as-a-judge).

A/B тестирование

Запустите две версии пайплайна: с дорогой моделью (контроль) и с оптимизированной (эксперимент).
Сравните cost per good answer и user satisfaction (например, thumbs up/down).
Пример: GPT-4o vs GPT-4o-mini + кэширование. Если cost per good answer снизился на 60% при падении faithfulness на 0.03, эксперимент успешен.

Инструменты

LangSmith / Weights & Biases — трекинг экспериментов и затрат.
Grafana + Prometheus — мониторинг в реальном времени.
Custom logger — запись токенов, latency, метрик качества.

7. Пример расчёта cost-effectiveness для RAG-пайплайна

Исходные данные

Модель: GPT-4o-mini (стоимость: $0.00015/1K входных токенов, $0.0006/1K выходных).
Средняя длина запроса: 500 токенов (вход).
Средняя длина ответа: 200 токенов (выход).
Количество запросов в день: 10 000.
Доля ответов с faithfulness > 0.9: 85% (по оценке LLM-as-a-judge).

Расчёт

Затраты на один запрос: (500 * $0.00015/1000) + (200 * $0.0006/1000) = $0.000075 + $0.00012 = $0.000195.
Дневные затраты: 10 000 * $0.000195 = $1.95.
Количество хороших ответов в день: 10 000 * 0.85 = 8 500.
Cost per good answer: $1.95 / 8 500 = $0.000229 (0.023 цента).

Сравнение с GPT-4o

Стоимость одного запроса: (500 * $0.005/1000) + (200 * $0.015/1000) = $0.0025 + $0.003 = $0.0055.
Дневные затраты: $55.
Доля хороших ответов: 95% (предположим).
Cost per good answer: $55 / 9 500 = $0.00579 (0.58 цента).
Вывод GPT-4o-mini в 25 раз дешевле за хороший ответ, при этом faithfulness всего на 10% ниже. Для большинства сценариев это более cost-effective.

8. Ошибки при оценке cost-effectiveness

Гонка за accuracy без учёта стоимости. Использование самой дорогой модели для всех запросов, даже когда дешёвая даёт приемлемое качество.
Игнорирование косвенных затрат Например, latency, которая снижает конверсию, или затраты на человеческую оценку.
Неучёт variance Cost per good answer может сильно варьироваться в зависимости от сложности запроса. Нужно считать не только среднее, но и распределение.
Субъективный порог faithfulness Порог 0.9 может быть слишком строгим для некоторых задач (например, креативное письмо). Лучше калибровать порог под бизнес-метрики (user satisfaction, conversion).
Отсутствие A/B тестирования Оптимизация cost-effectiveness без экспериментального подтверждения может привести к ухудшению пользовательского опыта.

Пет-проект для закрепления

Инструменты

Python (FastAPI для сервиса, Pandas для анализа).
OpenAI API (или любой LLM).
LangChain / LangSmith для трекинга.
Streamlit / Grafana для визуализации.
SQLite / PostgreSQL для хранения логов.

Шаги:

Создайте простой RAG-пайплайн (ChromaDB + OpenAI embeddings + GPT-4o-mini).
Для каждого запроса логируйте: количество токенов (вход/выход), latency, faithfulness (оценка через LLM-as-a-judge).
Рассчитайте cost per query и cost per good answer (порог faithfulness > 0.9).
Реализуйте A/B тест: одна ветка использует GPT-4o-mini, другая — GPT-4o. Сравните cost-effectiveness.
Добавьте кэширование (Redis) и измерьте его влияние.
Визуализируйте метрики на дашборде: временные ряды, распределение, сравнение веток.

Ожидаемый результат

Работающий дашборд, который показывает, какая конфигурация пайплайна наиболее cost-effective.
Отчёт с рекомендациями: например, «использовать GPT-4o-mini с кэшированием для 80% запросов, GPT-4o только для сложных».

Связь с другими вопросами

Вопрос	Тема
138	Как оценивать faithfulness ответов LLM
140	Какие метрики качества LLM-пайплайна вы знаете
141	Как проводить A/B тестирование LLM-пайплайна
142	Как мониторить LLM-пайплайн в production
143	Как уменьшить latency LLM-пайплайна
144	Как выбирать модель для LLM-пайплайна

Как вы оцениваете cost-effectiveness LLM-пайплайна?

Краткий тезис

1. Термин: Cost-effectiveness (экономическая эффективность)

2. Метрика: Cost per good answer

3. Компоненты затрат: детальный разбор

4. Trade-offs: качество vs стоимость

5. Оптимизация cost-effectiveness

5.1 Кэширование (caching)

5.2 Batch inference (пакетная обработка)

5.3 Prompt compression

5.4 Model distillation (дистилляция)

5.5 Speculative decoding (спекулятивное декодирование)

5.6 Fine-tuning на специфической задаче

6. Мониторинг cost-effectiveness в production

7. Пример расчёта cost-effectiveness для RAG-пайплайна

8. Ошибки при оценке cost-effectiveness

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Как вы оцениваете cost-effectiveness LLM-пайплайна?

Краткий тезис

1. Термин: Cost-effectiveness (экономическая эффективность)

2. Метрика: Cost per good answer

3. Компоненты затрат: детальный разбор

4. Trade-offs: качество vs стоимость

5. Оптимизация cost-effectiveness

5.1 Кэширование (caching)

5.2 Batch inference (пакетная обработка)

5.3 Prompt compression

5.4 Model distillation (дистилляция)

5.5 Speculative decoding (спекулятивное декодирование)

5.6 Fine-tuning на специфической задаче

6. Мониторинг cost-effectiveness в production

7. Пример расчёта cost-effectiveness для RAG-пайплайна

8. Ошибки при оценке cost-effectiveness

Пет-проект для закрепления

Связь с другими вопросами

Навигация