LangSmith
LangSmith
Определение
Платформа для отладки, тестирования, мониторинга и оценки LLM-приложений, включающая трассировку шагов агентов и управление версиями промптов.
Где встречается
- 41. LangChain vs LlamaIndex vs Haystack — что выберете и почему
- 42. Что такое LangGraph и зачем он нужен
- 43. Как спроектировать агента, который может выполнять цепочку из 5-10 действий
- 49. Как вы дебажите агента, который делает неправильные действия
- 54. Что такое Semantic Kernel и чем отличается от LangChain
- 55. Как вы измеряете стоимость (токены) агентской системы
- 62. Какие метрики вы мониторите для LLM в production
- 70. Как вы снижаете стоимость LLM в production на 50%+
- 73. Как вы логируете все вызовы LLM для аудита
- 95. Как вы храните историю изменений промптов (prompt lineage)
- 109. Как вы бенчмарките DSPy против ручного промпт-инжиниринга в production
- 139. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 140. Как вы проверяете, что новая версия модели не сломала старые кейсы
- 145. LangGraph vs CrewAI vs AutoGen — что вы выберете и для каких задач
- 165. Как тест-тайм компьютинг меняет MLOps
- 175. Как детектировать «объяснительно-решенческую декомпозицию»
- 176. Какие инструменты для агентской эвалюации вы используете
- 177. Как вы измеряете дрейф модели (model drift) для LLM
- 178. Чем отличается эвалюация LLM от эвалюации традиционных ML моделей
- 198. Какие ограничения у language representation design
- 333. Что такое preference data collection и как минимизировать bias в сравнениях
- 341. Как вы проектируете бенчмарк для нового домена (медицина, юриспруденция)
- 343. Как вы измеряете и исправляете bias в LLM-as-Judge (self-enhancement, position, verbosity)
- 382. Как вы проектируете canary deployment для LLM модели
- 383. Что такое error budget для AI качества и как его считать
- 393. Как вы измеряете «cost of reasoning» у агента (не только токены, но и шаги, время, ошибки)
- 395. Как вы тестируете агента на «неожиданные input» (не только adversarial, но и просто странные)
- 504. Как вы оцениваете cost-effectiveness LLM-пайплайна
- 578. Что такое agent evaluation метрика successful task completion rate vs step efficiency
- 579. Как работает agent replay для улучшения качества (анализ failed траекторий)
- 644. Как вы оцениваете faithfulness ответа на длинном контексте (когда много информации)
- 744. Что такое Agent Loop и какие компоненты входят в production-ready loop
- 754. Как Harness Engineering связан с наблюдаемостью (OpenTelemetry, LangSmith, трассировка)
- 757. Какие инструменты и фреймворки существуют для Harness Engineering
- 759. Какие книги или ресурсы вы рекомендуете по Harness Engineering
- 765. Как измерять «стоимость делегирования» (токены + время + деньги)
- 769. Как тестировать delegation paths (интеграционное тестирование multi-agent)
- 775. Что такое Cost Engineering для LLM-систем
- 779. Что такое «token budget» для агента и как его выставлять
- 786. Что такое «golden dataset» для агента и как его создавать