在数据集上运行实验¶
LangGraph Studio 支持评估,允许您在预定义的 LangSmith 数据集上运行助手。这使您能够了解您的应用程序在各种输入下的表现,将结果与参考输出进行比较,并使用 评估器 对结果进行评分。
本指南将向您展示如何在 Studio 中端到端地运行实验。
先决条件¶
在运行实验之前,请确保您具备以下条件:
-
LangSmith 数据集:您的数据集应包含您要测试的输入,以及可选的用于比较的参考输出。
-
(可选)评估器:您可以在 LangSmith 中将评估器(例如,LLM-as-a-Judge、启发式方法或自定义函数)附加到您的数据集。在图处理完所有输入后,这些评估器将自动运行。
- 欲了解更多信息,请阅读评估概念。
-
正在运行的应用程序:实验可以针对
- 部署在 LangGraph 平台上的应用程序。
- 通过 langgraph-cli 启动的本地运行应用程序。
分步指南¶
1. 启动实验¶
点击 运行实验 按钮,该按钮位于 Studio 页面的右上角。
2. 选择您的数据集¶
在弹出的模态框中,选择用于实验的数据集(或特定数据集拆分),然后点击 开始。
3. 监控进度¶
数据集中的所有输入都将针对当前活动的助手运行。通过右上角的徽章监控实验进度。
实验在后台运行时,您可以继续在 Studio 中工作。随时点击箭头图标按钮可导航到 LangSmith 并查看详细的实验结果。
故障排除¶
“运行实验”按钮已禁用¶
如果“运行实验”按钮已禁用,请检查以下内容:
- 已部署的应用程序:如果您的应用程序部署在 LangGraph 平台上,您可能需要创建一个新的修订版本才能启用此功能。
- 本地开发服务器:如果您正在本地运行应用程序,请确保已升级到最新版本的
langgraph-cli
(pip install -U langgraph-cli
)。此外,请确保通过在项目.env
文件中设置LANGSMITH_API_KEY
来启用追踪。
评估器结果缺失¶
当您运行实验时,任何附加的评估器都会被安排在队列中执行。如果您没有立即看到结果,则很可能它们仍在等待中。