在数据集上运行实验¶

LangGraph Studio 支持评估，允许您在预定义的 LangSmith 数据集上运行助手。这使您能够了解您的应用程序在各种输入下的表现，将结果与参考输出进行比较，并使用评估器对结果进行评分。

本指南将向您展示如何在 Studio 中端到端地运行实验。

先决条件¶

在运行实验之前，请确保您具备以下条件：

LangSmith 数据集：您的数据集应包含您要测试的输入，以及可选的用于比较的参考输出。
- 输入的 schema 必须与助手的所需输入 schema 匹配。有关 schema 的更多信息，请参阅此处。
- 有关创建数据集的更多信息，请参阅如何管理数据集。
（可选）评估器：您可以在 LangSmith 中将评估器（例如，LLM-as-a-Judge、启发式方法或自定义函数）附加到您的数据集。在图处理完所有输入后，这些评估器将自动运行。
- 欲了解更多信息，请阅读评估概念。
正在运行的应用程序：实验可以针对
- 部署在 LangGraph 平台上的应用程序。
- 通过 langgraph-cli 启动的本地运行应用程序。

点击 运行实验 按钮，该按钮位于 Studio 页面的右上角。

在弹出的模态框中，选择用于实验的数据集（或特定数据集拆分），然后点击开始。

数据集中的所有输入都将针对当前活动的助手运行。通过右上角的徽章监控实验进度。

实验在后台运行时，您可以继续在 Studio 中工作。随时点击箭头图标按钮可导航到 LangSmith 并查看详细的实验结果。

如果“运行实验”按钮已禁用，请检查以下内容：

已部署的应用程序：如果您的应用程序部署在 LangGraph 平台上，您可能需要创建一个新的修订版本才能启用此功能。
本地开发服务器：如果您正在本地运行应用程序，请确保已升级到最新版本的 langgraph-cli (pip install -U langgraph-cli)。此外，请确保通过在项目 .env 文件中设置 LANGSMITH_API_KEY 来启用追踪。

当您运行实验时，任何附加的评估器都会被安排在队列中执行。如果您没有立即看到结果，则很可能它们仍在等待中。