Поиск
- wikiTotal cost per session
# Total cost per session ## Определение Метрика, отражающая суммарную стоимость делегирования (токены, время, деньги) за одну пользовательскую сессию. ## Где встречается - [[765…
- wikifailure cost
…Как вы измеряете стоимость агента в production (не только токены)|148. Как вы измеряете стоимость агента в production (не только…
- wikiprompt tokens
# prompt tokens ## Определение Входные (prompt) и выходные (генерация) токены, составляющие основную стоимость вызова LLM. ## Где встречается - [[55. Как вы измеряете…
- wikicost of delegation
…Включает стоимость вызова, накладные расходы и возможные штрафы за ошибки. ## Где встречается - [[765. Как измерять «стоимость делегирования» (токены + время + деньги…
- wikiHelicone
…Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] - [[765…
- wikicost per session
# cost per session ## Определение Средняя стоимость одного диалога (сессии) агента. Ключевая метрика для контроля затрат и анализа эффективности взаимодействия с…
- wikiAgentCostTracker
# AgentCostTracker ## Определение Класс для отслеживания и логирования затрат на выполнение агента, включая стоимость токенов и вызовов инструментов. ## Где встречается - [[148…
- wikiAverage cost per delegation
…Как измерять «стоимость делегирования» (токены + время + деньги)|765. Как измерять «стоимость делегирования» (токены + время + деньги)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiCost per second of user wait
…Как измерять «стоимость делегирования» (токены + время + деньги)|765. Как измерять «стоимость делегирования» (токены + время + деньги)]] ## Навигация - [[00. Индекс терминов|Индекс…
- answerКак вы измеряете стоимость агента в production (не только токены)?
…средняя [[Вики/cost per session\|стоимость сессии]], [[Вики/Latency\|p99]] стоимости, **[[Вики/cost\|стоимость]] по типам инструментов**. --- ## 8. Стоимость ошибок…
- wikiWordPiece
…Почему tokenizer влияет на стоимость training|475. Почему tokenizer влияет на стоимость training]] - [[677. Как работает forward pass LLM от…
- wikicost of reasoning
# cost of reasoning ## Определение Совокупная стоимость выполнения агентом цепочки действий (шагов) для решения задачи, включая стоимость токенов, задержки и штрафы…
- wikiLLM Gateway
# LLM Gateway ## Определение Система-посредник для маршрутизации запросов к разным LLM-провайдерам и моделям; позволяет оптимизировать стоимость, задержки и обеспечить…
- answerКак измерять «стоимость делегирования» (токены + время + деньги)?
…Как измерять «стоимость делегирования» (токены + время + деньги)? ## Краткий тезис [[Вики/cost of delegation\|Стоимость делегирования]] — это совокупные [[Вики/Inference cost…
- wikierror penalty
# error penalty ## Определение Штрафная стоимость, назначаемая агенту за ошибочные или бесполезные действия. Используется в метриках cost of reasoning и регуляризации…
- wikicost
# cost ## Определение Количественная метрика экономических затрат на выполнение запросов к LLM, измеряемая в денежных единицах (например, стоимость за токен). Используется…
- wikimax_iterations
…Как вы измеряете стоимость (токены) агентской системы|55. Как вы измеряете стоимость (токены) агентской системы]] - [[143. Как вы боретесь с…
- wikiDeepSeek V2
…Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] ## Навигация…
- wikisteps per session
…Как вы измеряете стоимость (токены) агентской системы|55. Как вы измеряете стоимость (токены) агентской системы]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiDynamic routing
…Как измерять «стоимость делегирования» (токены + время + деньги)|765. Как измерять «стоимость делегирования» (токены + время + деньги)]] - [[849. Что такое expert parallelism…
- wikibudget per session
…Как вы измеряете стоимость (токены) агентской системы|55. Как вы измеряете стоимость (токены) агентской системы]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiMixtral 8x22B
…Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] ## Навигация…
- wikiFireworks AI
…Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] - [[800…
- wikicompletion tokens
…Как вы измеряете стоимость (токены) агентской системы|55. Как вы измеряете стоимость (токены) агентской системы]] - [[800+ вопросов|800+ вопросов]] ## Навигация…
- wikiRequest classification
…Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] ## Навигация…
- wikirouter model
…Как вы измеряете стоимость агента в production (не только токены)|148. Как вы измеряете стоимость агента в production (не только…
- wikiprompt completion ratio
…Как вы измеряете стоимость (токены) агентской системы|55. Как вы измеряете стоимость (токены) агентской системы]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiLunary
…Как измерять «стоимость делегирования» (токены + время + деньги)|765. Как измерять «стоимость делегирования» (токены + время + деньги)]] - [[775. Что такое Cost Engineering…
- wikiGrafana dashboard
…Как вы измеряете стоимость агента в production (не только токены)|148. Как вы измеряете стоимость агента в production (не только…
- wikiTogether.ai
…Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] - [[800…
- wikiinfrastructure cost
…Как вы измеряете стоимость агента в production (не только токены)|148. Как вы измеряете стоимость агента в production (не только…
- wikieffective reserved cost
# effective reserved cost ## Определение Полная стоимость зарезервированного инстанса с учётом амортизации upfront-платежа и почасовой ставки. Рассчитывается как (upfront_fee…
- wikiPortkey
…Как измерять «стоимость делегирования» (токены + время + деньги)|765. Как измерять «стоимость делегирования» (токены + время + деньги)]] ## Навигация - [[00. Индекс терминов|Индекс…
- wikiUnigram
…Почему tokenizer влияет на стоимость training|475. Почему tokenizer влияет на стоимость training]] - [[800+ вопросов|800+ вопросов]] ## Навигация - [[00. Индекс…
- wikicost/latency/quality trade-off
# cost/latency/quality trade-off ## Определение Трёхмерное пространство компромиссов между стоимостью, задержкой и качеством, которое необходимо мониторить при оптимизации LLM…
- wikiLLM price
# LLM price ## Определение Стоимость использования LLM, измеряемая в цене за токен; ключевая метрика для финансового моделирования и оценки эффективности кэширования…
- wikiGPT-4o mini
…Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] - [[276…
- answerЧто такое «cost attribution» (какой компонент сколько стоит)?
…гистограмма затрат по компонентам, общая стоимость, средняя стоимость одного запроса. 6. Добавить «cost attribution для инструментов»: эмулировать вызов внешнего API…
- wikiSelective Context
…Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] - [[139…
- wikiCost-adjusted accuracy
# Cost-adjusted accuracy ## Определение Метрика, объединяющая точность и стоимость (или задержку) в одно значение для сравнения моделей с разными характеристиками…
- wikicost per request
# cost per request ## Определение Суммарные затраты на API LLM (токены входа/выхода) за один запрос; базовая единица затрат в юнит…
- wikiGroq
# Groq ## Определение Аппаратно-программная платформа для низколатентного инференса LLM, обеспечивающая высокую скорость и низкую стоимость. ## Где встречается - [[70. Как вы…
- wikiGPTCache
…Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] - [[91…
- answerКак измерять ROI от fine-tuning (окупается ли дообучение более дешёвым инференсом)?
…Ключевые компоненты: [[Вики/Inference cost\|стоимость]] инференса]] базовой модели, [[Вики/Inference cost\|стоимость]] инференса]] специализированной модели и полная [[Вики/Inference…
- wikiClaude 3.5 Sonnet
…Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] - [[639…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать ROI от fine-tuning
…Ожидаемый результат этапа [[Вики/fixed cost\|Фиксированная стоимость]] этапа [[Вики/fine-tuning\|fine-tuning]]. ### Этап 3: Стоимость инференса после fine…
- wikiтрейсинг
…Как измерять «стоимость делегирования» (токены + время + деньги)|765. Как измерять «стоимость делегирования» (токены + время + деньги)]] - [[800+ вопросов|800+ вопросов]] - [[153…
- wikiVendor lock-in
…Как вы снижаете стоимость LLM в production на 50%+|70. Как вы снижаете стоимость LLM в production на 50%+]] - [[89…
- practiceТЕХНИЧЕСКОЕ ЗАДАНИЕ: Рассчитать TCO для self‑hosted vs API
…2. [[Вики/Определить стоимость self‑hosted\|Определить стоимость self‑hosted]] - Вариант A: покупка GPU (CAPEX) с линейной амортизацией за 3…
- answerКак вы измеряете «cost of reasoning» у агента (не только токены, но и шаги, время, ошибки)?
…Она включает не только [[Вики/Inference cost\|стоимость токенов]] [[Вики/LLM\|LLM]], но и задержки ([[Вики/TTFT\|latency]]), количество шагов…