Поиск

wikiJSON mode
# JSON mode ## Определение Режим работы LLM (OpenAI, другие провайдеры), при котором модель выводит только валидный JSON, соответствующий заданной схеме. ## Где…
answerЧто такое prompt caching у провайдеров (Anthropic, Google) и как его использовать?
…сжимать промпт (например, через LLMLingua) перед отправкой. - [[Вики/batch size\|Batching]]: группировать запросы с одинаковым префиксом (некоторые провайдеры автоматически кэшируют…
answerКак проектировать graceful degradation при отказе LLM API?
…при отказе внешнего [[Вики/LLM\|LLM API]]. Проектирование включает многоуровневую цепочку [[Вики/fallback model\|fallback]] (провайдеры, [[Вики/self-hosted\|self…
answerКак сравнивать cost efficiency разных LLM провайдеров?
…делают множество вызовов LLM за один сеанс. --- ## 1. Базовые цены: cost per 1M tokens **Что это.** Провайдеры публикуют [[Вики/cost…
answerЧто такое prompt caching у провайдеров (Anthropic, Google) и как его использовать?
…Мониторьте hit rate кэша Провайдеры предоставляют метрики (например, в Anthropic — заголовки `x-llm-cache-hit`). Если hit rate низкий — пересмотрите…
answerCrewAI vs AutoGen vs LangGraph — сравнение?
…Интеграция с LLM и провайдеры Все три поддерживают OpenAI, Anthropic, локальные модели через Ollama/vLLM. CrewAI и AutoGen имеют встроенные…
answerКак вы снижаете стоимость LLM в production на 50%+?
…Как вы снижаете стоимость LLM в production на 50%+? ## Краткий тезис [[Вики/cost reduction\|Снижение стоимости]] [[Вики/LLM\|LLM]] в…
answerКак вы реализуете retry с exponential backoff для LLM API с rate limit?
…LLM-провайдеры ([[Вики/LLM endpoint\|OpenAI]], [[Вики/LLM endpoint\|Anthropic]], Google) устанавливают лимиты для защиты инфраструктуры и равномерного распределения ресурсов…
answerNVIDIA Grace Hopper: CPU-GPU unified memory, как это меняет LLM serving?
…пока не все облачные провайдеры предлагают его. - Программная поддержка: не все фреймворки (vLLM, TensorRT-LLM) полностью оптимизированы под unified memory…
answerКакую LLM вы выберете для "быстрых" (<200ms) простых задач классификации?
…Главный принцип: «Для простой классификации — [[Вики/BERT\|BERT]], не надо [[Вики/LLM\|LLM]]». ## 1. Разбор требования: что значит «быстрая классификация…
answerКак проектировать retry storm mitigation (защита от лавинных ретраев)?
…продуманной стратегии они быстро перегружают backend. - LLM-провайдеры ([[Вики/LLM endpoint\|OpenAI]], [[Вики/LLM endpoint\|Anthropic]]) могут временно возвращать [[Вики…
answerКак вы обрабатываете rate limiting от LLM провайдеров (OpenAI, Anthropic)?
…Провайдеры ([[Вики/LLM endpoint\|OpenAI]], [[Вики/Claude API\|Anthropic]]) возвращают коды [[Вики/rate limiting\|HTTP 429]] ([[Вики/rate limiting\|Too…
answerЧто такое jailbreak as a service (коммерческие jailbreak сервисы) и как защититься?
…провайдеры оригинальных [[Вики/GPT-4o\|LLM]] могут нести ответственность за непреднамеренное содействие. --- ## 6. Методы защиты: обнаружение и предотвращение Защита от…
answerЗачем нужен embedding-as-a-service и когда вы его используете?
…Как бы вы добавили отмену (cancellation) для длительных LLM операций\|88]] | Мониторинг инференса эмбеддингов | --- ## Навигация (Obsidian) - Предыдущий: [[91. Что такое…
answerКак тестировать агентов на недетерминированность?
…LLM с детерминированным режимом llm = ChatOpenAI(model="gpt-4", temperature=0, seed=42) ``` [[Вики/constraints\|Ограничения]]: - Не все провайдеры [[Вики…
answerЧто такое watermarking для LLM генераций и как его детектировать?
…Когда стоит использовать watermarking? - Провайдеры LLM API (OpenAI, Anthropic) могут применять его, чтобы предъявить улику в случае злоупотреблений. - Образовательные платформы…
answerКак вы измеряете стоимость (токены) агентской системы?
…Термины и контекст [[Вики/agent system\|Агентская система]] — это [[Вики/orchestration\|orchestration]] (оркестровка) нескольких вызовов [[Вики/LLM\|LLM]], часто с…
answerКак работает prefix caching и prompt caching у провайдеров?
…почему генерация LLM дорогая и медленная? В основе современных [[Вики/GPT-4o\|LLM]] лежит **[[Вики/Transformer\|трансформер]]** с механизмом [[Вики…
answerOpenAI vs Anthropic vs Groq vs Self-hosted — что выбираете?
…провайдеры LLM и их инфраструктура [[Вики/OpenAI API\|OpenAI]] — коммерческий [[Вики/API\|API]] на базе моделей [[Вики/GPT-4o\|GPT…
answerЧто такое prefix caching и когда он эффективен?
…Что такое Wave Decoding и чем отличается от стандартного авторегрессивного\|450]] | Сравнение методов оптимизации инференса LLM | Техника prefix caching часто…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Настроить multi-region active-passive для inter-agent communication
…в inter-agent коммуникации | | 189 | Настройка DNS-фейловера для LLM-сервисов | | 204 | Репликация кэша с Redis Cluster для распределённых агентов…
practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать ROI от fine-tuning
…Связанные вопросы из базы знаний | Вопрос | Тема | |--------|------| | 131 | Как рассчитать TCO для LLM-системы? | | 132 | Сравнение стоимости API vs self…
answerКак вы загружаете 1000 документов в RAG максимально эффективно?
…Как вы обрезаете контекст, когда retrieved documents больше контекстного окна LLM\|14]], когда будете готовы|Вопрос [[13. Как вы загружаете…
question_bankЧАСТЬ 1: RAG-СИСТЕМЫ (20 вопросов)
…Назовите OWASP Top 10 для LLM (2025) и 3 самых критичных риска.** > *Ответ:* LLM01 (Prompt Injection) — 87% приложений уязвимы, LLM06…