Skip to main content

Diffbot

Diffbot 是一套基于机器学习的产品,旨在简化网络数据的结构化和集成。

安装与设置

获取免费的 Diffbot API 令牌按照这些说明 验证您的请求。

文档加载器

Diffbot的 Extract API 是一个将网页数据结构化和标准化的服务。

与传统的网页抓取工具不同,Diffbot Extract 不需要任何规则来读取页面上的内容。它使用计算机视觉模型将页面分类为20种可能的类型之一,然后将原始HTML标记转换为JSON。生成的结构化JSON遵循一致的 基于类型的本体,这使得从多个不同的网页源中提取具有相同模式的数据变得简单。

查看 使用示例

from langchain_community.document_loaders import DiffbotLoader

图表

Diffbot 的 自然语言处理 API 允许从非结构化文本数据中提取实体、关系和语义信息。

请参见 使用示例

from langchain_experimental.graph_transformers.diffbot import DiffbotGraphTransformer

此页面是否有帮助?


您还可以留下详细的反馈 在 GitHub 上