LangSmith

Определение

Платформа для отладки, тестирования, мониторинга и оценки LLM-приложений, включающая трассировку шагов агентов и управление версиями промптов.

Где встречается

41. LangChain vs LlamaIndex vs Haystack — что выберете и почему
42. Что такое LangGraph и зачем он нужен
43. Как спроектировать агента, который может выполнять цепочку из 5-10 действий
49. Как вы дебажите агента, который делает неправильные действия
54. Что такое Semantic Kernel и чем отличается от LangChain
55. Как вы измеряете стоимость (токены) агентской системы
62. Какие метрики вы мониторите для LLM в production
70. Как вы снижаете стоимость LLM в production на 50%+
73. Как вы логируете все вызовы LLM для аудита
95. Как вы храните историю изменений промптов (prompt lineage)
109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
139. Как вы оцениваете cost-effectiveness LLM-пайплайна
140. Как вы проверяете, что новая версия модели не сломала старые кейсы
145. LangGraph vs CrewAI vs AutoGen — что вы выберете и для каких задач
165. Как тест-тайм компьютинг меняет MLOps
175. Как детектировать «объяснительно-решенческую декомпозицию»
176. Какие инструменты для агентской эвалюации вы используете
177. Как вы измеряете дрейф модели (model drift) для LLM
178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
198. Какие ограничения у language representation design
333. Что такое preference data collection и как минимизировать bias в сравнениях
341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
343. Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)
382. Как вы проектируете canary deployment для LLM модели
383. Что такое error budget для AI качества и как его считать
393. Как вы измеряете «cost of reasoning» у агента (не только токены, но и шаги, время, ошибки)
395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)
504. Как вы оцениваете cost-effectiveness LLM-пайплайна
578. Что такое agent evaluation метрика successful task completion rate vs step efficiency
579. Как работает agent replay для улучшения качества (анализ failed траекторий)
644. Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)
744. Что такое Agent Loop и какие компоненты входят в production-ready loop
754. Как Harness Engineering связан с наблюдаемостью (OpenTelemetry, LangSmith, трассировка)
757. Какие инструменты и фреймворки существуют для Harness Engineering
759. Какие книги или ресурсы вы рекомендуете по Harness Engineering
765. Как измерять «стоимость делегирования» (токены + время + деньги)
769. Как тестировать delegation paths (интеграционное тестирование multi-agent)
775. Что такое Cost Engineering для LLM-систем
779. Что такое «token budget» для агента и как его выставлять
786. Что такое «golden dataset» для агента и как его создавать

LangSmith

LangSmith

Определение

Где встречается

Навигация

LangSmith

LangSmith

Определение

Где встречается

Навигация