Что такое idempotency в контексте LLM API и зачем она нужна?

Q: 1. Термин: Idempotency (идемпотентность)

В контексте [[Вики/LLM endpoint\|LLM API]] (интерфейсов для вызова больших языковых моделей) идимпотентность означает, что [[Вики/session replay\|повторная отправка]] одного и того же запроса (с одинаковым [[Вики/промпт агента\|prompt]], [[Вики/Temperature\|temperature]], [[Вики/max_tokens\|max_tokens]] и т.д.) не приведёт к созданию дублирующего вызова, повторному списанию средств или генерации нового ответа, если первый ответ уже был успешно получен.

Q: 2. Зачем нужна идимпотентность в LLM API

Основные сценарии, где идимпотентность незаменима: | Сценарий | Проблема без идимпотентности | Решение с идимпотентностью | |----------|------------------------------|----------------------------| | Retry при network timeout | Клиент не получил ответ (тайм-аут), повторяет запрос → сервер выполняет его снова, списывает деньги, генерирует новый ответ | Повторный запрос с тем же [[Вики/idempotency key\|idempotency key]] возвращает кэшированный ответ первого выполнения |

Q: 3. Реализация на стороне клиента

Клиент (приложение, вызывающее [[Вики/LLM\|LLM API]]) должен сгенерировать уникальный [[Вики/idempotency key\|idempotency key]] для каждого логически уникального запроса. Обычно это [[Вики/UUID v4\|UUID v4]] ([[Вики/UUID v4\|универсальный уникальный идентификатор]]). [[Вики/Key\|Ключ]] передаётся в HTTP-заголовке, например `[[Вики/idempotency key\|Idempotency-Key]]`.

Q: 4. Реализация на стороне сервера

Сервер ([[Вики/LLMProvider\|провайдер LLM]] [[Вики/API\|API]]) должен: 1. Извлечь `[[Вики/idempotency key\|Idempotency-Key]]` из заголовка запроса. 2. Проверить, существует ли уже ответ для этого ключа в быстром хранилище (обычно [[Вики/Redis Cluster\|Redis]] с [[Вики/TTL\|TTL]]).

Q: 5. Требования к идимпотентности

| Требование | Описание | |------------|----------| | Уникальность ключа | Ключ должен быть глобально уникальным для каждого логического запроса. UUID v4 — стандарт. | | Одинаковость при retry | Клиент обязан передавать тот же ключ при повторных попытках. | | Хранение на сервере | Сервер должен хранить пару (ключ → ответ) достаточно долго, чтобы покрыть максимальное окно retry (обычно 24 часа). |

Q: 6. Примеры использования в реальных API

- Stripe — пионер в области идимпотентности. Все POST-запросы требуют `[[Вики/idempotency key\|Idempotency-Key]]`. Это предотвращает двойное списание средств. - [[Вики/Anthropic Claude API\|Anthropic Claude API]] — поддерживает заголовок `anthropic-idempotency-key`. При повторном запросе с тем же ключом возвращается тот же ответ.

Q: 7. Альтернативы и сравнение

| Подход | Описание | Плюсы | Минусы | |--------|----------|-------|--------| | **Idempotency Key** | Клиент передаёт ключ, сервер кэширует ответ | Надёжно, стандартно, явно | Требует генерации и хранения ключа на клиенте | | Deduplication по хешу запроса | Сервер вычисляет хеш от тела запроса и использует его как ключ | Не требует от клиента передачи ключа | Хеш может совпасть для разных запросов (коллизия), не учитывает заголовки |

Q: 8. Проблемы и подводные камни

- Утечка ключей — если злоумышленник узнает [[Вики/idempotency key\|idempotency key]], он сможет повторно получить тот же ответ (но не изменить его). Для конфиденциальных данных [[Вики/Key\|ключи]] должны быть случайными и не предсказуемыми. - Срок хранения — если [[Вики/TTL\|TTL]] слишком мал, клиент может [[Вики/exponential backoff\|retry]] после истечения ключа, и [[Вики/Prompt engineering\|запрос]] будет выполнен повторно. Рекомендуется [[Вики/TTL\|TTL]] не менее 24 часов.

Краткий тезис

Idempotency (идемпотентность) — свойство операции, при котором многократное выполнение с одними и теми же входными данными даёт тот же результат, что и однократное. В контексте LLM API идимпотентность критична для безопасных повторных вызовов (retry) при сетевых сбоях: она предотвращает дублирование запросов, повторное списание средств и неконсистентные состояния. Реализуется через передачу уникального idempotency key (например, UUID) в заголовке запроса, который сервер использует для кэширования ответа и возврата его при повторных попытках.

1. Термин: Idempotency (идемпотентность)

Idempotency — фундаментальное понятие в распределённых системах и API-дизайне. Операция называется идемпотентной, если её многократное применение с одинаковыми аргументами не изменяет результат по сравнению с однократным применением. Классический пример — HTTP-метод PUT: повторный запрос на тот же ресурс с теми же данными не создаёт новый ресурс, а обновляет существующий до того же состояния.

В контексте LLM API (интерфейсов для вызова больших языковых моделей) идимпотентность означает, что повторная отправка одного и того же запроса (с одинаковым prompt, temperature), max_tokens и т.д.) не приведёт к созданию дублирующего вызова, повторному списанию средств или генерации нового ответа, если первый ответ уже был успешно получен.

Почему это важно LLM API часто работают по модели pay-per-token (оплата за каждый токен). Если клиент из-за тайм-аута сети повторно отправляет запрос, а сервер уже обработал первый, то без идимпотентности второй запрос будет обработан как новый — пользователь заплатит дважды, а в системе может появиться два разных ответа (из-за недетерминированности LLM при ненулевой temperature)). Идимпотентность гарантирует exactly-once semantics (семантику ровно одного выполнения) с точки зрения клиента.

2. Зачем нужна идимпотентность в LLM API

Основные сценарии, где идимпотентность незаменима:

Сценарий	Проблема без идимпотентности	Решение с идимпотентностью
Retry при network timeout	Клиент не получил ответ (тайм-аут), повторяет запрос → сервер выполняет его снова, списывает деньги, генерирует новый ответ	Повторный запрос с тем же idempotency key возвращает кэшированный ответ первого выполнения
Retry при 5xx ошибках	Сервер вернул 500, но запрос мог быть частично обработан (например, токены сгенерированы, но ответ не отправлен)	Идимпотентность предотвращает повторное выполнение, если первый запрос уже начал обрабатываться
Повторная отправка формы пользователем	Пользователь дважды нажал «Отправить» → два одинаковых запроса к LLM	Клиент генерирует один ключ на всю сессию отправки, второй запрос игнорируется
Агентные системы (Agentic RAG)	Агент вызывает LLM для генерации ответа, затем повторяет вызов из-за ошибки инструмента → дублирование действий (например, повторная отправка email)	Идимпотентность гарантирует, что повторный вызов не приведёт к повторному действию

Важно Сама по себе генерация текста LLM не является идемпотентной — при temperature) > 0 каждый вызов может дать разный результат. Идимпотентность вводится на уровне API как механизм кэширования ответа, а не как свойство модели.

3. Реализация на стороне клиента

Клиент (приложение, вызывающее LLM API) должен сгенерировать уникальный idempotency key для каждого логически уникального запроса. Обычно это UUID v4 (универсальный уникальный идентификатор). Ключ передаётся в HTTP-заголовке, например Idempotency-Key.

Пример на Python с библиотекой requests:

import uuid
import requests

def call_llm_with_idempotency(prompt: str, api_key: str, idempotency_key: str = None):
    if idempotency_key is None:
        idempotency_key = str(uuid.uuid4())  # генерируем новый ключ
    
    headers = {
        "Authorization": f"Bearer {api_key}",
        "Idempotency-Key": idempotency_key,
        "Content-Type": "application/json"
    }
    payload = {
        "model": "gpt-4",
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.7
    }
    
    response = requests.post(
        "https://api.openai.com/v1/chat/completions",
        headers=headers,
        json=payload
    )
    return response.json()

# Пример использования с retry
def robust_call(prompt: str, api_key: str, max_retries: int = 3):
    key = str(uuid.uuid4())
    for attempt in range(max_retries):
        try:
            result = call_llm_with_idempotency(prompt, api_key, idempotency_key=key)
            return result
        except requests.exceptions.Timeout:
            continue  # повтор с тем же ключом
        except requests.exceptions.HTTPError as e:
            if e.response.status_code in (500, 502, 503):
                continue
            raise
    raise RuntimeError("All retries failed")

Ключевые моменты

Ключ должен быть одинаковым для всех повторных попыток одного и того же запроса.
Клиент должен хранить ключ до получения успешного ответа (или до исчерпания попыток).
Если клиент генерирует новый ключ для каждой попытки, идимпотентность теряется.

4. Реализация на стороне сервера

Сервер (провайдер LLM API) должен:

Извлечь Idempotency-Key из заголовка запроса.
Проверить, существует ли уже ответ для этого ключа в быстром хранилище (обычно Redis с TTL).
Если ключ найден — вернуть сохранённый ответ (статус 200) без выполнения нового вызова модели.
Если ключ не найден — выполнить вызов модели, сохранить результат в хранилище с ключом и вернуть ответ клиенту.

Псевдокод серверной логики (FastAPI + Redis):

from fastapi import FastAPI, HTTPException, Header
import redis
import json

app = FastAPI()
cache = redis.Redis(host='localhost', port=6379, decode_responses=True)
CACHE_TTL = 86400  # 24 часа

@app.post("/v1/chat/completions")
async def chat_completion(
    request: dict,
    idempotency_key: str = Header(None, alias="Idempotency-Key")
):
    if idempotency_key is None:
        raise HTTPException(status_code=400, detail="Idempotency-Key header required")
    
    # Проверка кэша
    cached = cache.get(idempotency_key)
    if cached is not None:
        return json.loads(cached)
    
    # Вызов LLM (упрощённо)
    response = await call_llm_model(request)
    
    # Сохраняем в Redis
    cache.setex(idempotency_key, CACHE_TTL, json.dumps(response))
    
    return response

Важные детали

TTL (time-to-live) — время хранения ключа. Обычно 24 часа, чтобы покрыть окно возможных повторных запросов.
Атомарность — сохранение ответа должно происходить до отправки клиенту. Если сервер упадёт после сохранения, но до отправки, клиент при повторном запросе получит сохранённый ответ (что корректно, так как операция уже выполнена).
Конфликты — если приходит запрос с тем же ключом, но другим телом (например, другой prompt), сервер должен вернуть ошибку 422 (Unprocessable Entity), так как это нарушает контракт идимпотентности.

5. Требования к идимпотентности

Требование	Описание
Уникальность ключа	Ключ должен быть глобально уникальным для каждого логического запроса. UUID v4 — стандарт.
Одинаковость при retry	Клиент обязан передавать тот же ключ при повторных попытках.
Хранение на сервере	Сервер должен хранить пару (ключ → ответ) достаточно долго, чтобы покрыть максимальное окно retry (обычно 24 часа).
Идемпотентность для неидемпотентных операций	Даже если операция (генерация текста) неидемпотентна, механизм кэширования делает API идемпотентным.
Обработка конфликтов	Если ключ уже существует, но тело запроса отличается — сервер должен отклонить запрос с ошибкой.

6. Примеры использования в реальных API

Stripe — пионер в области идимпотентности. Все POST-запросы требуют Idempotency-Key. Это предотвращает двойное списание средств.
Anthropic Claude API — поддерживает заголовок anthropic-idempotency-key. При повторном запросе с тем же ключом возвращается тот же ответ.
OpenAI API — официально не поддерживает идимпотентность (на момент написания). Однако разработчики могут реализовать её на своей стороне через прокси-сервер (см. пет-проект).
Google Cloud AI — некоторые сервисы (например, Vertex AI) поддерживают идимпотентность через request-id.

7. Альтернативы и сравнение

Подход	Описание	Плюсы	Минусы
Idempotency Key	Клиент передаёт ключ, сервер кэширует ответ	Надёжно, стандартно, явно	Требует генерации и хранения ключа на клиенте
Deduplication по хешу запроса	Сервер вычисляет хеш от тела запроса и использует его как ключ	Не требует от клиента передачи ключа	Хеш может совпасть для разных запросов (коллизия), не учитывает заголовки
Exactly-once через транзакции	Использование распределённых транзакций (например, двухфазный коммит)	Гарантирует атомарность	Сложно, медленно, не подходит для высоконагруженных API
Retry с идемпотентностью на уровне бизнес-логики	Клиент сам проверяет дубликаты (например, по ID запроса в БД)	Гибкость	Требует дополнительной логики на клиенте, не защищает от дублирования на стороне сервера

Вывод Idempotency Key — наиболее распространённый и надёжный подход для LLM API.

8. Проблемы и подводные камни

Утечка ключей — если злоумышленник узнает idempotency key, он сможет повторно получить тот же ответ (но не изменить его). Для конфиденциальных данных ключи должны быть случайными и не предсказуемыми.
Срок хранения — если TTL слишком мал, клиент может retry после истечения ключа, и запрос будет выполнен повторно. Рекомендуется TTL не менее 24 часов.
Согласованность при сбоях — если сервер сохранил ответ в Redis, но упал перед отправкой клиенту, клиент при retry получит сохранённый ответ. Это корректно, если операция была выполнена. Однако если сервер упал до сохранения, клиент retry — ключа нет, операция выполняется снова. Это может привести к дублированию, если операция неидемпотентна. Решение — использовать идимпотентные операции на уровне модели (например, генерация текста с фиксированным seed).
Неидемпотентные побочные эффекты — если вызов LLM запускает внешние действия (отправка email, вызов другого API), то даже при кэшировании ответа побочный эффект может быть выполнен дважды. В таких случаях нужно либо делать побочные эффекты идемпотентными, либо выполнять их после подтверждения от клиента.

9. Связь с Agentic RAG

В архитектуре Agentic RAG агенты часто совершают несколько вызовов LLM для планирования, выполнения инструментов и генерации финального ответа. При сбоях (например, тайм-аут при вызове внешнего инструмента) агент может повторно отправить запрос к LLM. Без идимпотентности это приведёт к:

Дублированию действий (например, повторная отправка того же email).
Неконсистентному состоянию (агент получит два разных ответа от LLM и запутается).
Лишним расходам.

Idempotency позволяет агенту безопасно retry, передавая тот же ключ. Кроме того, в RAG-системах, где контекст (документы) может меняться, идимпотентность гарантирует, что повторный запрос с тем же контекстом вернёт тот же ответ (если это требуется для логирования или аудита).

Пет-проект для закрепления

Задача Реализовать прокси-сервер для OpenAI API с поддержкой идимпотентности.

Инструменты

Python 3.10+
FastAPI (веб-фреймворк)
Redis (in-memory хранилище, можно использовать fakeredis для тестов)
openai (клиент для вызова API)
uuid (генерация ключей)

Шаги:

Создайте FastAPI-приложение с эндпоинтом /v1/chat/completions.
Добавьте обязательный заголовок Idempotency-Key.
При получении запроса проверьте наличие ключа в Redis:
- Если ключ есть — верните сохранённый ответ (JSON).
- Если нет — вызовите OpenAI API, сохраните ответ в Redis с TTL 24 часа и верните его.
Реализуйте обработку конфликтов: если ключ уже существует, но тело запроса отличается — верните HTTP 422.
Напишите клиентский скрипт, который генерирует ключ и делает retry при тайм-ауте.

Ожидаемый результат

При первом запросе с ключом abc123 прокси вызывает OpenAI и возвращает ответ.
При повторном запросе с тем же ключом (даже с другим prompt) прокси возвращает тот же ответ без вызова OpenAI.
При запросе с новым ключом — новый вызов.
При конфликте (ключ уже есть, но тело другое) — ошибка 422.

Пример кода (упрощённый сервер):

from fastapi import FastAPI, HTTPException, Header
from pydantic import BaseModel
import redis, json, uuid, hashlib

app = FastAPI()
cache = redis.Redis(host='localhost', port=6379, decode_responses=True)
TTL = 86400

class ChatRequest(BaseModel):
    model: str
    messages: list
    temperature: float = 0.7

@app.post("/v1/chat/completions")
async def proxy(request: ChatRequest, idempotency_key: str = Header(...)):
    # Проверка ключа
    cached = cache.get(idempotency_key)
    if cached:
        # Проверка, что тело запроса совпадает с сохранённым (хеш)
        body_hash = hashlib.sha256(request.json().encode()).hexdigest()
        stored_hash = cache.get(f"{idempotency_key}:hash")
        if stored_hash and stored_hash != body_hash:
            raise HTTPException(422, "Idempotency key already used with different request body")
        return json.loads(cached)
    
    # Вызов OpenAI (упрощённо)
    import openai
    response = openai.ChatCompletion.create(**request.dict())
    
    # Сохраняем
    cache.setex(idempotency_key, TTL, json.dumps(response))
    cache.setex(f"{idempotency_key}:hash", TTL, hashlib.sha256(request.json().encode()).hexdigest())
    
    return response

Связь с другими вопросами

Вопрос	Тема
405	Что такое retry-стратегии для LLM API?
407	Как реализовать rate limiting для LLM API?
408	Что такое caching ответов LLM и как его реализовать?
410	Как обеспечить надежность (reliability) в Agentic RAG?
412	Что такое exactly-once delivery в контексте AI-агентов?
420	Как логировать и аудировать вызовы LLM в production?

Краткий тезис

1. Термин: Idempotency (идемпотентность)

2. Зачем нужна идимпотентность в LLM API

Основные сценарии, где идимпотентность незаменима:

Сценарий	Проблема без идимпотентности	Решение с идимпотентностью
Retry при network timeout	Клиент не получил ответ (тайм-аут), повторяет запрос → сервер выполняет его снова, списывает деньги, генерирует новый ответ	Повторный запрос с тем же idempotency key возвращает кэшированный ответ первого выполнения
Retry при 5xx ошибках	Сервер вернул 500, но запрос мог быть частично обработан (например, токены сгенерированы, но ответ не отправлен)	Идимпотентность предотвращает повторное выполнение, если первый запрос уже начал обрабатываться
Повторная отправка формы пользователем	Пользователь дважды нажал «Отправить» → два одинаковых запроса к LLM	Клиент генерирует один ключ на всю сессию отправки, второй запрос игнорируется
Агентные системы (Agentic RAG)	Агент вызывает LLM для генерации ответа, затем повторяет вызов из-за ошибки инструмента → дублирование действий (например, повторная отправка email)	Идимпотентность гарантирует, что повторный вызов не приведёт к повторному действию

3. Реализация на стороне клиента

Пример на Python с библиотекой requests:

import uuid
import requests

def call_llm_with_idempotency(prompt: str, api_key: str, idempotency_key: str = None):
    if idempotency_key is None:
        idempotency_key = str(uuid.uuid4())  # генерируем новый ключ
    
    headers = {
        "Authorization": f"Bearer {api_key}",
        "Idempotency-Key": idempotency_key,
        "Content-Type": "application/json"
    }
    payload = {
        "model": "gpt-4",
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.7
    }
    
    response = requests.post(
        "https://api.openai.com/v1/chat/completions",
        headers=headers,
        json=payload
    )
    return response.json()

# Пример использования с retry
def robust_call(prompt: str, api_key: str, max_retries: int = 3):
    key = str(uuid.uuid4())
    for attempt in range(max_retries):
        try:
            result = call_llm_with_idempotency(prompt, api_key, idempotency_key=key)
            return result
        except requests.exceptions.Timeout:
            continue  # повтор с тем же ключом
        except requests.exceptions.HTTPError as e:
            if e.response.status_code in (500, 502, 503):
                continue
            raise
    raise RuntimeError("All retries failed")

Ключевые моменты

Ключ должен быть одинаковым для всех повторных попыток одного и того же запроса.
Клиент должен хранить ключ до получения успешного ответа (или до исчерпания попыток).
Если клиент генерирует новый ключ для каждой попытки, идимпотентность теряется.

4. Реализация на стороне сервера

Сервер (провайдер LLM API) должен:

Извлечь Idempotency-Key из заголовка запроса.
Проверить, существует ли уже ответ для этого ключа в быстром хранилище (обычно Redis с TTL).
Если ключ найден — вернуть сохранённый ответ (статус 200) без выполнения нового вызова модели.
Если ключ не найден — выполнить вызов модели, сохранить результат в хранилище с ключом и вернуть ответ клиенту.

Псевдокод серверной логики (FastAPI + Redis):

from fastapi import FastAPI, HTTPException, Header
import redis
import json

app = FastAPI()
cache = redis.Redis(host='localhost', port=6379, decode_responses=True)
CACHE_TTL = 86400  # 24 часа

@app.post("/v1/chat/completions")
async def chat_completion(
    request: dict,
    idempotency_key: str = Header(None, alias="Idempotency-Key")
):
    if idempotency_key is None:
        raise HTTPException(status_code=400, detail="Idempotency-Key header required")
    
    # Проверка кэша
    cached = cache.get(idempotency_key)
    if cached is not None:
        return json.loads(cached)
    
    # Вызов LLM (упрощённо)
    response = await call_llm_model(request)
    
    # Сохраняем в Redis
    cache.setex(idempotency_key, CACHE_TTL, json.dumps(response))
    
    return response

Важные детали

TTL (time-to-live) — время хранения ключа. Обычно 24 часа, чтобы покрыть окно возможных повторных запросов.
Атомарность — сохранение ответа должно происходить до отправки клиенту. Если сервер упадёт после сохранения, но до отправки, клиент при повторном запросе получит сохранённый ответ (что корректно, так как операция уже выполнена).
Конфликты — если приходит запрос с тем же ключом, но другим телом (например, другой prompt), сервер должен вернуть ошибку 422 (Unprocessable Entity), так как это нарушает контракт идимпотентности.

5. Требования к идимпотентности

Требование	Описание
Уникальность ключа	Ключ должен быть глобально уникальным для каждого логического запроса. UUID v4 — стандарт.
Одинаковость при retry	Клиент обязан передавать тот же ключ при повторных попытках.
Хранение на сервере	Сервер должен хранить пару (ключ → ответ) достаточно долго, чтобы покрыть максимальное окно retry (обычно 24 часа).
Идемпотентность для неидемпотентных операций	Даже если операция (генерация текста) неидемпотентна, механизм кэширования делает API идемпотентным.
Обработка конфликтов	Если ключ уже существует, но тело запроса отличается — сервер должен отклонить запрос с ошибкой.

6. Примеры использования в реальных API

Stripe — пионер в области идимпотентности. Все POST-запросы требуют Idempotency-Key. Это предотвращает двойное списание средств.
Anthropic Claude API — поддерживает заголовок anthropic-idempotency-key. При повторном запросе с тем же ключом возвращается тот же ответ.
OpenAI API — официально не поддерживает идимпотентность (на момент написания). Однако разработчики могут реализовать её на своей стороне через прокси-сервер (см. пет-проект).
Google Cloud AI — некоторые сервисы (например, Vertex AI) поддерживают идимпотентность через request-id.

7. Альтернативы и сравнение

Подход	Описание	Плюсы	Минусы
Idempotency Key	Клиент передаёт ключ, сервер кэширует ответ	Надёжно, стандартно, явно	Требует генерации и хранения ключа на клиенте
Deduplication по хешу запроса	Сервер вычисляет хеш от тела запроса и использует его как ключ	Не требует от клиента передачи ключа	Хеш может совпасть для разных запросов (коллизия), не учитывает заголовки
Exactly-once через транзакции	Использование распределённых транзакций (например, двухфазный коммит)	Гарантирует атомарность	Сложно, медленно, не подходит для высоконагруженных API
Retry с идемпотентностью на уровне бизнес-логики	Клиент сам проверяет дубликаты (например, по ID запроса в БД)	Гибкость	Требует дополнительной логики на клиенте, не защищает от дублирования на стороне сервера

Вывод Idempotency Key — наиболее распространённый и надёжный подход для LLM API.

8. Проблемы и подводные камни

Утечка ключей — если злоумышленник узнает idempotency key, он сможет повторно получить тот же ответ (но не изменить его). Для конфиденциальных данных ключи должны быть случайными и не предсказуемыми.
Срок хранения — если TTL слишком мал, клиент может retry после истечения ключа, и запрос будет выполнен повторно. Рекомендуется TTL не менее 24 часов.
Согласованность при сбоях — если сервер сохранил ответ в Redis, но упал перед отправкой клиенту, клиент при retry получит сохранённый ответ. Это корректно, если операция была выполнена. Однако если сервер упал до сохранения, клиент retry — ключа нет, операция выполняется снова. Это может привести к дублированию, если операция неидемпотентна. Решение — использовать идимпотентные операции на уровне модели (например, генерация текста с фиксированным seed).
Неидемпотентные побочные эффекты — если вызов LLM запускает внешние действия (отправка email, вызов другого API), то даже при кэшировании ответа побочный эффект может быть выполнен дважды. В таких случаях нужно либо делать побочные эффекты идемпотентными, либо выполнять их после подтверждения от клиента.

9. Связь с Agentic RAG

Дублированию действий (например, повторная отправка того же email).
Неконсистентному состоянию (агент получит два разных ответа от LLM и запутается).
Лишним расходам.

Пет-проект для закрепления

Задача Реализовать прокси-сервер для OpenAI API с поддержкой идимпотентности.

Инструменты

Python 3.10+
FastAPI (веб-фреймворк)
Redis (in-memory хранилище, можно использовать fakeredis для тестов)
openai (клиент для вызова API)
uuid (генерация ключей)

Шаги:

Создайте FastAPI-приложение с эндпоинтом /v1/chat/completions.
Добавьте обязательный заголовок Idempotency-Key.
При получении запроса проверьте наличие ключа в Redis:
- Если ключ есть — верните сохранённый ответ (JSON).
- Если нет — вызовите OpenAI API, сохраните ответ в Redis с TTL 24 часа и верните его.
Реализуйте обработку конфликтов: если ключ уже существует, но тело запроса отличается — верните HTTP 422.
Напишите клиентский скрипт, который генерирует ключ и делает retry при тайм-ауте.

Ожидаемый результат

При первом запросе с ключом abc123 прокси вызывает OpenAI и возвращает ответ.
При повторном запросе с тем же ключом (даже с другим prompt) прокси возвращает тот же ответ без вызова OpenAI.
При запросе с новым ключом — новый вызов.
При конфликте (ключ уже есть, но тело другое) — ошибка 422.

Пример кода (упрощённый сервер):

from fastapi import FastAPI, HTTPException, Header
from pydantic import BaseModel
import redis, json, uuid, hashlib

app = FastAPI()
cache = redis.Redis(host='localhost', port=6379, decode_responses=True)
TTL = 86400

class ChatRequest(BaseModel):
    model: str
    messages: list
    temperature: float = 0.7

@app.post("/v1/chat/completions")
async def proxy(request: ChatRequest, idempotency_key: str = Header(...)):
    # Проверка ключа
    cached = cache.get(idempotency_key)
    if cached:
        # Проверка, что тело запроса совпадает с сохранённым (хеш)
        body_hash = hashlib.sha256(request.json().encode()).hexdigest()
        stored_hash = cache.get(f"{idempotency_key}:hash")
        if stored_hash and stored_hash != body_hash:
            raise HTTPException(422, "Idempotency key already used with different request body")
        return json.loads(cached)
    
    # Вызов OpenAI (упрощённо)
    import openai
    response = openai.ChatCompletion.create(**request.dict())
    
    # Сохраняем
    cache.setex(idempotency_key, TTL, json.dumps(response))
    cache.setex(f"{idempotency_key}:hash", TTL, hashlib.sha256(request.json().encode()).hexdigest())
    
    return response

Связь с другими вопросами

Вопрос	Тема
405	Что такое retry-стратегии для LLM API?
407	Как реализовать rate limiting для LLM API?
408	Что такое caching ответов LLM и как его реализовать?
410	Как обеспечить надежность (reliability) в Agentic RAG?
412	Что такое exactly-once delivery в контексте AI-агентов?
420	Как логировать и аудировать вызовы LLM в production?

Что такое idempotency в контексте LLM API и зачем она нужна?

Краткий тезис

1. Термин: Idempotency (идемпотентность)

2. Зачем нужна идимпотентность в LLM API

3. Реализация на стороне клиента

4. Реализация на стороне сервера

5. Требования к идимпотентности

6. Примеры использования в реальных API

7. Альтернативы и сравнение

8. Проблемы и подводные камни

9. Связь с Agentic RAG

Пет-проект для закрепления

Связь с другими вопросами

Навигация

Что такое idempotency в контексте LLM API и зачем она нужна?

Краткий тезис

1. Термин: Idempotency (идемпотентность)

2. Зачем нужна идимпотентность в LLM API

3. Реализация на стороне клиента

4. Реализация на стороне сервера

5. Требования к идимпотентности

6. Примеры использования в реальных API

7. Альтернативы и сравнение

8. Проблемы и подводные камни

9. Связь с Agentic RAG

Пет-проект для закрепления

Связь с другими вопросами

Навигация