简介#

这些任务指的是 LLM 从非结构化源（如电子邮件、网站或其他文本）中提取结构化输出的能力。以下是支持的数据集列表。

from langchain_benchmarks import registry

registry.filter(Type="ExtractionTask")

名称	类型	数据集 ID	描述
电子邮件提取	提取任务	a1742786-bde5-4f51-a1d8-e148e5251ddb	一个包含 42 封真实电子邮件的数据集，从垃圾邮件文件夹中去重，并删除语义 HTML 标签，以及一个用于从任意 .mbox 文件（如 Gmail 导出的文件）中初始提取和格式化其他电子邮件的脚本。在初始阶段之后，对数据进行了额外的清理。请参阅 https://github.com/jacoblee93/oss-model-extraction-evals。
聊天提取	提取任务	00f4444c-9460-4a82-b87a-f50096f1cfef	一个旨在测试 LLM 从对话中提取和推断结构化信息的能力的数据集。对话在用户和支持工程师之间进行。输出应结构化为 JSON 对象，并测试 LLM 正确结构化信息的能力以及执行简单分类任务的能力。

任务资源#

除了 dataset_id、名称和描述之外，每个提取任务还提供以下内容

schema - 一个 pydantic 基类，定义了模型应该提取的模式（或模式）

数据集模式#

每个任务对应于一个 LangSmith 数据集，具有以下模式

输入

input: str - 输入文本

输出

output: str - 预期的提取结果，以 json 对象形式

评估#

提取任务还具有评估配置，该配置定义了在对架构进行基准测试时要应用的默认 LangSmith 评估器。

from langchain.chat_models import ChatOpenAI

from langchain_benchmarks.extraction import get_eval_config

eval_llm = ChatOpenAI(model="gpt-4", model_kwargs={"seed": 42})
eval_config = get_eval_config(eval_llm)

简介

目录

简介#

任务资源#

数据集模式#

评估#