Как вы сравниваете две LLM архитектуры не по accuracy, а по efficiency?

Q: Краткий тезис

Q: 1. Термин: Efficiency (эффективность) в контексте LLM

Основные аспекты [[Вики/Efficiency\|efficiency]]: - Вычислительная [[Вики/Efficiency\|эффективность]] — сколько операций нужно для генерации одного токена. - [[Вики/Memory\|Память]] — сколько [[Вики/GPU\|GPU]] RAM требуется для хранения весов, активаций и [[Вики/KV-cache\|KV cache]].

Q: 2.2 Memory footprint (KV cache)

Q: 2.3 Latency vs batch size scaling

Ключевые режимы - [[Вики/online inference\|Online inference]] (batch=1): важна низкая latency. Здесь доминирует [[Вики/load time\|время загрузки]] весов и [[Вики/KV-cache\|KV cache]]. - [[Вики/batch size\|Batch inference]] (batch>1): важна throughput. GPU эффективнее при больших batch, но latency растёт.

Q: 2.5 Cost per million tokens

Cost = (время на токен * стоимость GPU в час) / (3.6e6) * 1e6 Или через API-цены (например, OpenAI $0.01/1k токенов). Факторы - FLOPs per token → энергопотребление - Memory footprint → необходимое количество GPU - Throughput → сколько запросов можно обработать за час **Пример сравнения (при одинаковом качестве):**

Q: 3. Как измерять эти метрики на практике

Инструменты - [[Вики/PyTorch Profiler\|PyTorch Profiler]] — для FLOPs и времени. - [[Вики/nsys\|NVIDIA Nsight Systems]] — для детального профилирования GPU. - [[Вики/VLLM\|vLLM]] — для измерения throughput и latency в production-like условиях. - Hugging Face `transformers` — базовые замеры.

Краткий тезис

Сравнение LLM по efficiency (эффективности) — это оценка того, насколько рационально архитектура использует вычислительные ресурсы (FLOPs, память, время) для получения ответа. Ключевые метрики: FLOPs per token, memory footprint (особенно KV cache), latency при разных batch size и длинах последовательностей, а также cost per million tokens. Понимание этих метрик позволяет выбрать архитектуру под конкретный сценарий (онлайн-инференс, пакетная обработка, мобильное устройство) и оптимизировать стоимость эксплуатации.

1. Термин: Efficiency (эффективность) в контексте LLM

Efficiency — это отношение полезного результата (качество генерации) к затраченным ресурсам (время, энергия, память, деньги). В отличие от accuracy (точность на бенчмарках), efficiency измеряет, как быстро и дёшево модель может работать в продакшене.

Основные аспекты efficiency:

Вычислительная эффективность — сколько операций нужно для генерации одного токена.
Память — сколько GPU RAM требуется для хранения весов, активаций и KV cache.
Пропускная способность (throughput) — сколько токенов в секунду может генерировать модель при заданном batch size.
Задержка (latency) — время от получения запроса до первого токена (TTFT) и время генерации последующих токенов (TPOT).
Энергопотребление и стоимость — ватты на токен или доллары на миллион токенов.

2. Ключевые метрики efficiency

2.1 FLOPs per token

FLOPs (Floating Point Operations) — количество операций с плавающей точкой, необходимых для одного forward pass. Для LLM это сумма операций в слоях self-attention и feed-forward.

Формула для одного токена в decoder-only Transformer:

Self-attention: 4 * (d_model^2) * seq_len (для Q, K, V, проекций)
Feed-forward: 2 * d_model * d_ff (обычно d_ff = 4 * d_model)
Итог: ~ 6 * d_model^2 + 2 * d_model * d_ff на токен (без учёта softmax и layer norm)

Пример: LLaMA-7B (d_model=4096, d_ff=11008) → ~ 616.7M + 24096*11008 ≈ 100M + 90M ≈ 190M FLOPs per token.

Сравнение архитектур

Архитектура	FLOPs per token (при равном размере)	Примечание
Transformer (decoder)	~ 6 * d_model^2 + 2 * d_model * d_ff	Зависит от seq_len через attention
Mamba (SSM)	~ 4 * d_model^2 + 2 * d_model * d_state	Не зависит от seq_len (линейная сложность)
Hybrid (Transformer + SSM)	~ сумма компонентов	Сложнее, но может быть эффективнее на длинных контекстах

Как измерять Использовать профилировщики (PyTorch Profiler, NVIDIA Nsight) или теоретические оценки через количество параметров и архитектуру.

2.2 Memory footprint (KV cache)

KV cache — кэш ключей и значений из предыдущих шагов генерации, необходимый для авторегрессивного декодирования. Размер KV cache растёт линейно с длиной последовательности и batch size.

Формула

KV_cache_size = batch_size * seq_len * num_layers * 2 * d_k * precision_bytes

d_k = d_model / num_heads
precision_bytes: 2 для FP16, 4 для FP32

Пример: LLaMA-7B (32 layers, 32 heads, d_model=4096 → d_k=128), seq_len=4096, batch=1, FP16:

KV cache = 1 * 4096 * 32 * 2 * 128 * 2 = 1 * 4096 * 32 * 512 = 67,108,864 байт ≈ 64 MB на один запрос. При batch=64 → 4 GB.

Сравнение архитектур

Архитектура	KV cache	Зависимость от seq_len
Transformer	O(batch * seq_len * layers * d_k)	Линейная
Mamba	O(batch * layers * d_state)	Константная (не растёт с seq_len)
Hybrid	O(batch * seq_len * layers_transformer * d_k)	Линейная, но меньше за счёт замены части слоёв

Влияние Большой KV cache ограничивает максимальный batch size и длину контекста на одном GPU. Для длинных контекстов (128k+) Transformer становится неэффективен, Mamba или Hybrid выигрывают.

2.3 Latency vs batch size scaling

Latency (задержка) — время ответа модели. Зависит от batch size нелинейно из-за параллелизации.

Ключевые режимы

Online inference (batch=1): важна низкая latency. Здесь доминирует время загрузки весов и KV cache.
Batch inference (batch>1): важна throughput. GPU эффективнее при больших batch, но latency растёт.

График зависимости Для Transformer latency растёт линейно с batch size до насыщения памяти. Для Mamba latency растёт медленнее, так как нет квадратичного внимания.

Пример сравнения (гипотетический):

Batch size	Transformer latency (ms)	Mamba latency (ms)
1	50	45
8	120	90
64	600	300

Как измерять Запустить инференс с разными batch size, замерить среднее время на токен (TPOT) и время до первого токена (TTFT).

2.4 Время инференса на разных длинах последовательностей

Влияние длины контекста В Transformer self-attention имеет квадратичную сложность O(seq_len^2) по времени, а в Mamba — линейную O(seq_len). Это критично для длинных документов.

Формула времени для одного forward pass:

Transformer: T ~ a * seq_len^2 + b * seq_len
Mamba: T ~ c * seq_len

Пример замеров (на A100):

seq_len	Transformer (7B)	Mamba (7B)
512	10 ms	8 ms
4096	80 ms	30 ms
32768	1200 ms	200 ms

Вывод Для коротких контекстов разница невелика, для длинных — Mamba значительно быстрее.

2.5 Cost per million tokens

Стоимость инференса — практическая метрика для бизнеса. Рассчитывается как:

Cost = (время на токен * стоимость GPU в час) / (3.6e6) * 1e6

Или через API-цены (например, OpenAI $0.01/1k токенов).

Факторы

FLOPs per token → энергопотребление
Memory footprint → необходимое количество GPU
Throughput → сколько запросов можно обработать за час

Пример сравнения (при одинаковом качестве):

Архитектура	Throughput (токенов/сек)	Стоимость за 1M токенов
Transformer	1000	$0.05
Mamba	2500	$0.02

Примечание Цены зависят от облачного провайдера, типа GPU и оптимизаций (vLLM, TensorRT).

3. Как измерять эти метрики на практике

Инструменты

PyTorch Profiler — для FLOPs и времени.
NVIDIA Nsight Systems — для детального профилирования GPU.
vLLM — для измерения throughput и latency в production-like условиях.
Hugging Face transformers — базовые замеры.

Пример кода для замера latency

import torch
import time
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "meta-llama/Llama-2-7b-hf"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)

input_text = "Explain quantum computing in simple terms."
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")

# Warmup
for _ in range(3):
    _ = model.generate(**inputs, max_new_tokens=50)

# Measure latency
start = time.time()
output = model.generate(**inputs, max_new_tokens=50)
end = time.time()
latency = end - start
print(f"Latency for 50 tokens: {latency:.3f} sec")

Для FLOPs

from fvcore.nn import FlopCountAnalysis
flops = FlopCountAnalysis(model, inputs.input_ids)
print(f"FLOPs per forward: {flops.total() / 1e9:.2f} GFLOPs")

Для KV cache Использовать model.get_memory_footprint() или профилировщик памяти.

4. Сравнение архитектур: Transformer vs State Space Models (Mamba) vs Hybrid

Характеристика	Transformer (decoder)	Mamba (SSM)	Hybrid (Transformer + SSM)
FLOPs per token	Высокие (квадратичные по seq_len)	Низкие (линейные)	Средние (зависит от пропорции)
KV cache	Большой (растёт с seq_len)	Отсутствует (или мал)	Умеренный
Latency (batch=1)	Средняя	Низкая	Низкая-средняя
Throughput (batch large)	Высокая при оптимизации	Высокая	Высокая
Длинные контексты	Плохо (квадратичная сложность)	Отлично	Хорошо
Качество (accuracy)	Эталон	Ниже на некоторых задачах	Близко к Transformer
Сложность реализации	Стандартная	Новая, меньше инструментов	Сложная

Вывод Для efficiency критична длина контекста и режим работы. Если контекст короткий (<4k) и batch=1, Transformer может быть достаточно эффективен. Для длинных контекстов (>16k) или высокого throughput Mamba/Hybrid предпочтительнее.

5. Влияние hardware (GPU, CUDA) на efficiency

GPU архитектура определяет, насколько эффективно выполняются операции:

Tensor Cores — ускоряют матричные умножения (FP16, INT8). Transformer с большими матрицами выигрывает.
Memory bandwidth — критична для загрузки весов и KV cache. Mamba с меньшим количеством параметров может быть bottleneck на bandwidth.
CUDA kernels — операции attention (flash attention) оптимизированы для Transformer, а SSM требуют новых kernel (например, selective scan).

Пример: На A100 (312 TFLOPS FP16, 2 TB/s bandwidth) Transformer может достичь 50% utilisation, а Mamba — 30% из-за меньшей вычислительной интенсивности.

Рекомендации

Для Transformer: использовать FlashAttention, PagedAttention (vLLM), TensorRT.
Для Mamba: использовать оптимизированные kernel (Mamba-2, CUDA scan).
Для Hybrid: комбинировать подходы.

6. Trade-offs: accuracy vs efficiency

Главный компромисс часто более эффективная архитектура (Mamba) уступает Transformer в качестве на сложных задачах (reasoning, long-range dependencies). Hybrid пытается балансировать.

Как выбирать

Если accuracy критична (медицина, юриспруденция) → Transformer + оптимизации.
Если cost и latency критичны (чат-боты, real-time) → Mamba или Hybrid.
Если контекст длинный (анализ документов) → Mamba.

Метрика Pareto frontier строить график accuracy vs cost и выбирать архитектуру на границе.

7. Инструменты для профилирования

vLLM — для измерения throughput и latency в production.
TGI (Text Generation Inference) — от Hugging Face.
DeepSpeed — для оптимизации памяти.
NVIDIA Nsight Compute — для анализа kernel.
PyTorch Profiler — для FLOPs и времени.

Пример команды vLLM

python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-2-7b-hf --gpu-memory-utilization 0.9

Затем отправить запросы и замерить latency через time или ab (Apache Benchmark).

8. Пет-проект для закрепления

Задача Сравнить efficiency двух архитектур (например, LLaMA-7B и Mamba-7B) на одинаковом hardware.

Инструменты

Python, PyTorch, Hugging Face Transformers, Mamba (из mamba_ssm).
NVIDIA GPU (можно Colab с T4).
Библиотеки: fvcore (FLOPs), torch.utils.bottleneck, time.

Шаги:

Загрузить обе модели в FP16.
Измерить FLOPs per token для одного forward pass (использовать FlopCountAnalysis).
Измерить KV cache размер (для LLaMA через model.lm_head и слои).
Замерить latency при batch=1 и seq_len=512, 2048, 8192 (генерировать 128 токенов).
Построить графики: latency vs seq_len, throughput vs batch size.
Рассчитать cost per million токенов (предположить стоимость GPU $2/час).
Сделать вывод: какая архитектура эффективнее для коротких/длинных контекстов.

Ожидаемый результат Таблица с метриками и обоснованный выбор для сценария "чат-бот с контекстом до 4k" (Transformer) и "анализ документов до 32k" (Mamba).

9. Связь с другими вопросами

Вопрос	Тема
295	Как вы оптимизируете инференс LLM (vLLM, TensorRT)?
296	Что такое KV cache и как он влияет на latency?
297	Как вы сравниваете модели по latency и throughput?
298	Какие техники квантизации (INT8, FP8) вы используете?
299	Как вы выбираете hardware для инференса LLM?
301	Как вы оцениваете cost per token для разных архитектур?

10. Навигация

Предыдущий: 299
Следующий: 301
Индекс: 00. Индекс разборов

Краткий тезис

1. Термин: Efficiency (эффективность) в контексте LLM

Основные аспекты efficiency:

Вычислительная эффективность — сколько операций нужно для генерации одного токена.
Память — сколько GPU RAM требуется для хранения весов, активаций и KV cache.
Пропускная способность (throughput) — сколько токенов в секунду может генерировать модель при заданном batch size.
Задержка (latency) — время от получения запроса до первого токена (TTFT) и время генерации последующих токенов (TPOT).
Энергопотребление и стоимость — ватты на токен или доллары на миллион токенов.

2. Ключевые метрики efficiency

2.1 FLOPs per token

Формула для одного токена в decoder-only Transformer:

Self-attention: 4 * (d_model^2) * seq_len (для Q, K, V, проекций)
Feed-forward: 2 * d_model * d_ff (обычно d_ff = 4 * d_model)
Итог: ~ 6 * d_model^2 + 2 * d_model * d_ff на токен (без учёта softmax и layer norm)

Пример: LLaMA-7B (d_model=4096, d_ff=11008) → ~ 616.7M + 24096*11008 ≈ 100M + 90M ≈ 190M FLOPs per token.

Сравнение архитектур

Архитектура	FLOPs per token (при равном размере)	Примечание
Transformer (decoder)	~ 6 * d_model^2 + 2 * d_model * d_ff	Зависит от seq_len через attention
Mamba (SSM)	~ 4 * d_model^2 + 2 * d_model * d_state	Не зависит от seq_len (линейная сложность)
Hybrid (Transformer + SSM)	~ сумма компонентов	Сложнее, но может быть эффективнее на длинных контекстах

2.2 Memory footprint (KV cache)

Формула

KV_cache_size = batch_size * seq_len * num_layers * 2 * d_k * precision_bytes

d_k = d_model / num_heads
precision_bytes: 2 для FP16, 4 для FP32

Пример: LLaMA-7B (32 layers, 32 heads, d_model=4096 → d_k=128), seq_len=4096, batch=1, FP16:

KV cache = 1 * 4096 * 32 * 2 * 128 * 2 = 1 * 4096 * 32 * 512 = 67,108,864 байт ≈ 64 MB на один запрос. При batch=64 → 4 GB.

Сравнение архитектур

Архитектура	KV cache	Зависимость от seq_len
Transformer	O(batch * seq_len * layers * d_k)	Линейная
Mamba	O(batch * layers * d_state)	Константная (не растёт с seq_len)
Hybrid	O(batch * seq_len * layers_transformer * d_k)	Линейная, но меньше за счёт замены части слоёв

2.3 Latency vs batch size scaling

Latency (задержка) — время ответа модели. Зависит от batch size нелинейно из-за параллелизации.

Ключевые режимы

Online inference (batch=1): важна низкая latency. Здесь доминирует время загрузки весов и KV cache.
Batch inference (batch>1): важна throughput. GPU эффективнее при больших batch, но latency растёт.

Пример сравнения (гипотетический):

Batch size	Transformer latency (ms)	Mamba latency (ms)
1	50	45
8	120	90
64	600	300

2.4 Время инференса на разных длинах последовательностей

Формула времени для одного forward pass:

Transformer: T ~ a * seq_len^2 + b * seq_len
Mamba: T ~ c * seq_len

Пример замеров (на A100):

seq_len	Transformer (7B)	Mamba (7B)
512	10 ms	8 ms
4096	80 ms	30 ms
32768	1200 ms	200 ms

Вывод Для коротких контекстов разница невелика, для длинных — Mamba значительно быстрее.

2.5 Cost per million tokens

Стоимость инференса — практическая метрика для бизнеса. Рассчитывается как:

Cost = (время на токен * стоимость GPU в час) / (3.6e6) * 1e6

Или через API-цены (например, OpenAI $0.01/1k токенов).

Факторы

FLOPs per token → энергопотребление
Memory footprint → необходимое количество GPU
Throughput → сколько запросов можно обработать за час

Пример сравнения (при одинаковом качестве):

Архитектура	Throughput (токенов/сек)	Стоимость за 1M токенов
Transformer	1000	$0.05
Mamba	2500	$0.02

Примечание Цены зависят от облачного провайдера, типа GPU и оптимизаций (vLLM, TensorRT).

3. Как измерять эти метрики на практике

Инструменты

PyTorch Profiler — для FLOPs и времени.
NVIDIA Nsight Systems — для детального профилирования GPU.
vLLM — для измерения throughput и latency в production-like условиях.
Hugging Face transformers — базовые замеры.

Пример кода для замера latency

import torch
import time
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "meta-llama/Llama-2-7b-hf"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)

input_text = "Explain quantum computing in simple terms."
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")

# Warmup
for _ in range(3):
    _ = model.generate(**inputs, max_new_tokens=50)

# Measure latency
start = time.time()
output = model.generate(**inputs, max_new_tokens=50)
end = time.time()
latency = end - start
print(f"Latency for 50 tokens: {latency:.3f} sec")

Для FLOPs

from fvcore.nn import FlopCountAnalysis
flops = FlopCountAnalysis(model, inputs.input_ids)
print(f"FLOPs per forward: {flops.total() / 1e9:.2f} GFLOPs")

Для KV cache Использовать model.get_memory_footprint() или профилировщик памяти.

4. Сравнение архитектур: Transformer vs State Space Models (Mamba) vs Hybrid

Характеристика	Transformer (decoder)	Mamba (SSM)	Hybrid (Transformer + SSM)
FLOPs per token	Высокие (квадратичные по seq_len)	Низкие (линейные)	Средние (зависит от пропорции)
KV cache	Большой (растёт с seq_len)	Отсутствует (или мал)	Умеренный
Latency (batch=1)	Средняя	Низкая	Низкая-средняя
Throughput (batch large)	Высокая при оптимизации	Высокая	Высокая
Длинные контексты	Плохо (квадратичная сложность)	Отлично	Хорошо
Качество (accuracy)	Эталон	Ниже на некоторых задачах	Близко к Transformer
Сложность реализации	Стандартная	Новая, меньше инструментов	Сложная

5. Влияние hardware (GPU, CUDA) на efficiency

GPU архитектура определяет, насколько эффективно выполняются операции:

Tensor Cores — ускоряют матричные умножения (FP16, INT8). Transformer с большими матрицами выигрывает.
Memory bandwidth — критична для загрузки весов и KV cache. Mamba с меньшим количеством параметров может быть bottleneck на bandwidth.
CUDA kernels — операции attention (flash attention) оптимизированы для Transformer, а SSM требуют новых kernel (например, selective scan).

Рекомендации

Для Transformer: использовать FlashAttention, PagedAttention (vLLM), TensorRT.
Для Mamba: использовать оптимизированные kernel (Mamba-2, CUDA scan).
Для Hybrid: комбинировать подходы.

6. Trade-offs: accuracy vs efficiency

Как выбирать

Если accuracy критична (медицина, юриспруденция) → Transformer + оптимизации.
Если cost и latency критичны (чат-боты, real-time) → Mamba или Hybrid.
Если контекст длинный (анализ документов) → Mamba.

Метрика Pareto frontier строить график accuracy vs cost и выбирать архитектуру на границе.

7. Инструменты для профилирования

vLLM — для измерения throughput и latency в production.
TGI (Text Generation Inference) — от Hugging Face.
DeepSpeed — для оптимизации памяти.
NVIDIA Nsight Compute — для анализа kernel.
PyTorch Profiler — для FLOPs и времени.

Пример команды vLLM

python -m vllm.entrypoints.openai.api_server --model meta-llama/Llama-2-7b-hf --gpu-memory-utilization 0.9

Затем отправить запросы и замерить latency через time или ab (Apache Benchmark).

8. Пет-проект для закрепления

Задача Сравнить efficiency двух архитектур (например, LLaMA-7B и Mamba-7B) на одинаковом hardware.

Инструменты

Python, PyTorch, Hugging Face Transformers, Mamba (из mamba_ssm).
NVIDIA GPU (можно Colab с T4).
Библиотеки: fvcore (FLOPs), torch.utils.bottleneck, time.

Шаги:

Загрузить обе модели в FP16.
Измерить FLOPs per token для одного forward pass (использовать FlopCountAnalysis).
Измерить KV cache размер (для LLaMA через model.lm_head и слои).
Замерить latency при batch=1 и seq_len=512, 2048, 8192 (генерировать 128 токенов).
Построить графики: latency vs seq_len, throughput vs batch size.
Рассчитать cost per million токенов (предположить стоимость GPU $2/час).
Сделать вывод: какая архитектура эффективнее для коротких/длинных контекстов.

9. Связь с другими вопросами

Вопрос	Тема
295	Как вы оптимизируете инференс LLM (vLLM, TensorRT)?
296	Что такое KV cache и как он влияет на latency?
297	Как вы сравниваете модели по latency и throughput?
298	Какие техники квантизации (INT8, FP8) вы используете?
299	Как вы выбираете hardware для инференса LLM?
301	Как вы оцениваете cost per token для разных архитектур?

10. Навигация

Предыдущий: 299
Следующий: 301
Индекс: 00. Индекс разборов