Skip to main content

Unstructured

unstructured 包来自 Unstructured.IO,可以从 PDF 和 Word 文档等原始源文件中提取干净的文本。
本页介绍如何在 LangChain 中使用 unstructured 生态系统。

安装和设置

如果您使用的是本地运行的加载器,请按照以下步骤获取 unstructured 及其依赖项的运行。

  • 为了获得最小的安装占用并利用开源 unstructured 包中不可用的功能,请使用 pip install unstructured-client 安装 Python SDK,并使用 pip install langchain-unstructured 来使用 UnstructuredLoader 并通过 Unstructured API 进行远程分区。此加载器位于 LangChain 合作伙伴库中,而不是 langchain-community 库中,您需要一个 api_key,可以在 这里 生成免费的密钥。

  • 要在本地运行所有内容,请使用 pip install unstructured 安装开源 Python 包,并使用 pip install langchain-community,并使用上述提到的相同 UnstructuredLoader

    • 您可以通过额外选项安装特定于文档的依赖项,例如 pip install "unstructured[docx]"
    • 要安装所有文档类型的依赖项,请使用 pip install "unstructured[all-docs]"
  • 如果您的系统中尚未提供以下系统依赖项,请使用例如 brew install 对于 Mac 进行安装。根据您解析的文档类型,您可能不需要所有这些依赖项。

    • libmagic-dev(文件类型检测)
    • poppler-utils(图像和 PDF)
    • tesseract-ocr(图像和 PDF)
    • qpdf(PDF)
    • libreoffice(MS Office 文档)
    • pandoc(EPUB)
  • 在本地运行时,Unstructured 还建议使用 Docker 通过遵循此指南 确保所有系统依赖项正确安装。

Unstructured API 需要 API 密钥才能发出请求。 您可以在 这里 请求 API 密钥并立即开始使用! 查看 README 这里 以开始进行 API 调用。 我们很想听到您的反馈,请在我们的 社区 Slack 中告诉我们您的使用情况。 并请关注质量和性能的改进! 如果您希望自托管 Unstructured API 或在本地运行,请查看 这里 的说明。

数据加载器

Unstructured 的主要用途是在数据加载器中。

UnstructuredLoader

查看使用示例,了解如何使用此加载器进行本地和远程的无服务器 Unstructured API 分区。

from langchain_unstructured import UnstructuredLoader

UnstructuredCHMLoader

CHM 指的是 Microsoft Compiled HTML Help

from langchain_community.document_loaders import UnstructuredCHMLoader

UnstructuredCSVLoader

逗号分隔值CSV)文件是一种使用逗号分隔值的定界文本文件。文件的每一行都是一个数据记录。每个记录由一个或多个字段组成,这些字段由逗号分隔。

请参见使用示例

from langchain_community.document_loaders import UnstructuredCSVLoader

UnstructuredEmailLoader

查看使用示例

from langchain_community.document_loaders import UnstructuredEmailLoader

UnstructuredEPubLoader

EPUB 是一种使用“.epub”文件扩展名的 电子书文件格式。该术语是电子出版物的缩写,有时被称为 ePubEPUB 得到了许多电子阅读器的支持,兼容的软件可在大多数智能手机、平板电脑和计算机上使用。

请参见 使用示例

from langchain_community.document_loaders import UnstructuredEPubLoader

UnstructuredExcelLoader

请参见 使用示例

from langchain_community.document_loaders import UnstructuredExcelLoader

UnstructuredFileIOLoader

查看 用法示例

from langchain_community.document_loaders import UnstructuredFileIOLoader

UnstructuredHTMLLoader

查看用法示例

from langchain_community.document_loaders import UnstructuredHTMLLoader

UnstructuredImageLoader

请参阅用法示例

from langchain_community.document_loaders import UnstructuredImageLoader

UnstructuredMarkdownLoader

查看 用法示例

from langchain_community.document_loaders import UnstructuredMarkdownLoader

UnstructuredODTLoader

Open Document Format for Office Applications (ODF),也称为OpenDocument,是一种用于文字处理文档、电子表格、演示文稿和图形的开放文件格式,采用ZIP压缩的XML文件。它的开发旨在为办公应用程序提供一种开放的、基于XML的文件格式规范。

请参见使用示例

from langchain_community.document_loaders import UnstructuredODTLoader

UnstructuredOrgModeLoader

一个 Org Mode 文档是一个文档编辑、格式化和组织的模式,旨在为笔记、规划和在自由软件文本编辑器 Emacs 中撰写提供支持。

请参见 用法示例

from langchain_community.document_loaders import UnstructuredOrgModeLoader

UnstructuredPDFLoader

查看使用示例

from langchain_community.document_loaders import UnstructuredPDFLoader

UnstructuredPowerPointLoader

查看 使用示例

from langchain_community.document_loaders import UnstructuredPowerPointLoader

UnstructuredRSTLoader

reStructured Text (RST) 文件是一种用于文本数据的文件格式,主要在 Python 编程语言社区中用于技术文档。

请参见 使用示例

from langchain_community.document_loaders import UnstructuredRSTLoader

UnstructuredRTFLoader

在API文档中查看用法示例。

from langchain_community.document_loaders import UnstructuredRTFLoader

UnstructuredTSVLoader

制表符分隔值TSV)文件是一种简单的基于文本的文件格式,用于存储表格数据。记录由换行符分隔,记录中的值由制表符分隔。

请参见 使用示例

from langchain_community.document_loaders import UnstructuredTSVLoader

UnstructuredURLLoader

查看 用法示例

from langchain_community.document_loaders import UnstructuredURLLoader

UnstructuredWordDocumentLoader

查看使用示例

from langchain_community.document_loaders import UnstructuredWordDocumentLoader

UnstructuredXMLLoader

查看使用示例

from langchain_community.document_loaders import UnstructuredXMLLoader

此页面是否有帮助?


您还可以留下详细的反馈 在 GitHub 上