1. LangSmith
1.1 什么是LangSmith
Written: 2026.06 LangSmith 是由 LangChain 团队开发的一款 用于调试、测试、评估和监控 LLM 应用的开发者工具平台,适用于构建基于大型语言模型(LLMs)的复杂应用。它特别适合在使用 LangChain、OpenAI Function calling、Agent、RAG(检索增强生成)等场景中进行调试与监控。它是一个 SaaS 服务平台,由 LangChain 官方运营,服务托管在云端。使用 LangSmith 需要注册账号,并通过云端 API Key 接入1.2 监控功能介绍
-
Trace(调用追踪):记录和可视化每一次 LLM 调用链条(Trace Tree)。记录模型调用的输入、输出、使用的模型名称、参数(如
temperature、top_p等)、token 使用情况。 - Telemetry(性能指标监控):统计调用性能指标,便于优化性能和成本。例如:平均响应时间、总调用次数、成功/失败次数、Token 使用量(input/output 分别统计)
- Dataset / Run Comparison(运行比对与评估):用于自动化评估 LLM 系统的准确性和一致性,用于监控模型版本变更或 prompt 改动后的影响
-
Tagging & Metadata(标签与元数据):支持给每次调用打标签,比如:哪个用户触发的(
user_id)、哪个环境(prod/dev)、哪个版本(v1.2.0),可用于后续查询和聚合分析,便于精细监控和定位问题 -
错误监控(Error Tracing):自动记录错误类型、异常堆栈,支持错误分组分析(如调用某个 retriever 的失败率较高),可集成告警系统(
Slack,Webhook等)
1.3 使用场景总结
| 场景 | LangSmith 帮助点 |
|---|---|
| Chain 调试 | 可视化各步骤输入输出、耗时、调用顺序 |
| RAG 应用监控 | 监控 Retriever/LLM 效果、错误情况、响应质量 |
| Prompt 优化与 A/B Test | 比较不同 prompt 的性能与效果 |
| 模型版本对比 | 运行历史版本对比评估 |
| 用户行为分析 | 利用 tagging 分析调用频率、失败率、使用行为 |
3. LangSmith使用
3.1 创建项目获取 API Key



3.2 复制环境变量配置
复制上方的配置,放到项目的 .env 文件中
3.3 使用验证
通过一个最简单的示例进行测试:



4. Callback 使用
4.1 什么是Callback机制
除了使用LangSmith之外,LangChain还提供了一种回调机制,可以在 LLM 应用程序的各种阶段执行特定的钩子方法。通过这些钩子方法,我们可以轻松地进行日志输出、异常监控等任务,Callback支持以下事件的钩子方法:
| Event 事件 | 触发时机 | 关联钩子方法 |
|---|---|---|
| Chat model start | 聊天模型启动 | on_chat_model_start |
| LLM start LLM | LLM模型启动 | on_llm_start |
| LLM new token LLM | LLM生成新的 token 时触发,仅在启用流式输出(streaming)模式下生效 | on_llm_new_token |
| LLM ends | LLM 或聊天模型完成运行时 | on_llm_end |
| LLM errors | LLM 或聊天模型出错 | on_llm_error |
| Chain start | 链开始执行(实际上就是每个可运行组件开始执行) | on_chain_start |
| Chain end | 链结束执行(实际上就是每个可运行组件结束执行) | on_chain_end |
| Chain error | 链执行出错 | on_chain_error |
| Tool start | 工具开始执行 | on_tool_start |
| Tool end | 工具结束执行 | on_tool_end |
| Tool error | 工具执行出错 | on_tool_error |
| Agent action | agent开始执行 | on_agent_action |
| Agent finish | agent结束执行 | on_agent_finish |
| Retriever start | 检索器开始执行 | on_retriever_start |
| Retriever end | 检索器结束执行 | on_retriever_end |
| Retriever error | 检索器执行出错 | on_retriever_error |
| Text | 每次模型输出一段文本时,就会调用这个方法 | on_text |
| Retry | 当某个组件(比如 LLM 调用或链)发生失败并触发重试机制时 | on_retry |
4.2 CallBack 使用场景
在实际开发中,LangSmith 更适合在开发调试阶段使用,而在生产环境下,出于数据隐私和安全考量,我们通常不会将敏感数据上传到LangSmith平台。这时,Callback 机制就能将执行信息接入到本地或自定义的监控系统,实现同样的可观测性。
4.3 使用Callback机制
使用Callback机制,需要使用到Callback handler,即回调处理器,那些各个生命周期的钩子方法,就定义在回调处理器中,回调处理器支持同步和异步,同步回调处理器继承BaseCallbackHandler类,异步回调处理器继承AsyncCallbackHandler类。
BaseCallbackHandler类可以重写的钩子方法 如下:
那么,如何使自定义的CallbackHandler生效呢?可以在调用可执行组件的invoke()方法中,除了传递输入参数外,再传递config配置参数,config配置参数可以传递各种配置信息,其中,callbacks属性用来传递回调处理器,callbacks属性接收一个数组,数组里面包含自定义的CallbackHandler对象,代码示例如下:
使用Callback机制
CustomCallbackHandler类,继承了BaseCallbackHandler,分别重写了on_chain_start、on_llm_end、on_chain_start、on_chain_end,在聊天模型开始执行和结束执行进行了信息输出,在on_chain_start、on_chain_end打印了当前链执行的组件名称、运行id、输入参数、输出结果
执行结果如下,通过输出结果可以清晰地看到每一个组件的输入和输出结果,以及LLM何时开始执行、结束执行,若需监控异常情况,可重写 on_chain_error 方法
打印结果

