用于在存储中为语义搜索索引文档的配置。

此配置用于设置如何嵌入文档并为向量相似度搜索建立索引。

interface IndexConfig {
    dims: number;
    embeddings: Embeddings;
    fields?: string[];
}

属性

dims: number

嵌入向量中的维度数量。

常用嵌入模型维度

  • OpenAI text-embedding-3-large: 256、1024 或 3072
  • OpenAI text-embedding-3-small: 512 或 1536
  • OpenAI text-embedding-ada-002: 1536
  • Cohere embed-english-v3.0: 1024
  • Cohere embed-english-light-v3.0: 384
  • Cohere embed-multilingual-v3.0: 1024
  • Cohere embed-multilingual-light-v3.0: 384
embeddings: Embeddings

用于生成向量的嵌入模型。这应该是 LangChain Embeddings 的实现。

fields?: string[]

从中提取文本以生成嵌入的字段。

路径语法支持

  • 简单字段访问: "field"
  • 嵌套字段: "metadata.title"
  • 数组索引
    • 所有元素: "chapters[*].content"
    • 特定索引: "authors[0].name"
    • 最后一个元素: "array[-1]"

默认

["$"] Embeds the entire document as one vector