Skip to main content

文档加载器

info

如果您想编写自己的文档加载器,请参见 此如何做
如果您想贡献一个集成,请参见 贡献集成

特性

以下表格显示了所有文档加载器的特性支持情况。

Document LoaderDescriptionLazy loadingNative async support
AZLyricsLoader加载 AZLyrics 网页。
AcreomLoader从目录加载 acreom vault。
AirtableLoader加载 Airtable 表格。
AmazonTextractPDFLoader从本地文件系统、HTTP 或 S3 加载 PDF 文件。
ApifyDatasetLoaderApify 网络抓取、爬虫和数据提取平台加载数据集。
ArcGISLoader从 ArcGIS FeatureLayer 加载记录。
ArxivLoaderArxiv 加载查询结果。
AssemblyAIAudioLoaderById
AssemblyAIAudioTranscriptLoader加载 AssemblyAI 音频转录。
AstraDBLoader.. deprecated:: 0.0.29 请使用 langchain_astradb.AstraDBLoader
AsyncChromiumLoader使用
AsyncHtmlLoader异步加载 HTML
AthenaLoaderAWS Athena 加载文档。
AzureAIDataLoader从 Azure AI 数据加载。
AzureAIDocumentIntelligenceLoader使用 Azure Document Intelligence 加载 PDF。
AzureBlobStorageContainerLoaderAzure Blob Storage 容器加载。
AzureBlobStorageFileLoaderAzure Blob Storage 文件加载。
BSHTMLLoader加载 HTML 文件并使用 beautiful soup 解析。
BibtexLoader加载 bibtex 文件。
BigQueryLoader.. deprecated:: 0.0.32 请使用 langchain_google_community.BigQueryLoader
BiliBiliLoader
BlackboardLoader加载 Blackboard 课程。
BlockchainDocumentLoader从区块链智能合约加载元素。
BraveSearchLoader使用 Brave Search 引擎加载。
BrowserbaseLoader使用托管在 Browserbase 上的无头浏览器加载预渲染网页。
BrowserlessLoader使用 Browserless /content 端点加载网页。
CSVLoaderCSV 文件加载为文档列表。
CassandraLoader
ChatGPTLoader从导出的 ChatGPT 数据加载对话。
CoNLLULoader加载 CoNLL-U 文件。
CollegeConfidentialLoader加载 College Confidential 网页。
ConcurrentLoader并发加载和解析文档。
ConfluenceLoader加载 Confluence 页面。
CouchbaseLoaderCouchbase 加载文档。
CubeSemanticLoader加载 Cube semantic layer 元数据。
DataFrameLoader加载 Pandas DataFrame。
DatadogLogsLoader加载 Datadog 日志。
DedocAPIFileLoader
DedocFileLoader
DedocPDFLoader
DiffbotLoader加载 Diffbot json 文件。
DirectoryLoader从目录加载。
DiscordChatLoader加载 Discord 聊天记录。
DocugamiLoader.. deprecated:: 0.0.24 请使用 docugami_langchain.DocugamiLoader
DocusaurusLoader从 Docusaurus 文档加载。
Docx2txtLoader使用 docx2txt 加载 DOCX 文件并在字符级别进行分块。
DropboxLoaderDropbox 加载文件。
DuckDBLoaderDuckDB 加载。
EtherscanLoaderEthereum 主网加载交易。
EverNoteLoaderEverNote 加载。
FacebookChatLoader加载 Facebook Chat 消息目录转储。
FaunaLoaderFaunaDB 加载。
FigmaFileLoader加载 Figma 文件。
FireCrawlLoader使用 FireCrawl 将网页加载为文档。
GCSDirectoryLoader.. deprecated:: 0.0.32 请使用 langchain_google_community.GCSDirectoryLoader
GCSFileLoader.. deprecated:: 0.0.32 请使用 langchain_google_community.GCSFileLoader
GeoDataFrameLoader加载 geopandas Dataframe。
GitHubIssuesLoader加载 GitHub 仓库的问题。
GitLoader加载 Git 仓库文件。
GitbookLoader加载 GitBook 数据。
GithubFileLoader加载 GitHub 文件
GlueCatalogLoader从 AWS Glue 加载表模式。
GoogleApiYoutubeLoaderYouTube 频道加载所有视频。
GoogleDriveLoader.. deprecated:: 0.0.32 请使用 langchain_google_community.GoogleDriveLoader
GoogleSpeechToTextLoader.. deprecated:: 0.0.32 请使用 langchain_google_community.SpeechToTextLoader
GutenbergLoaderGutenberg.org 加载。
HNLoader加载 Hacker News 数据。
HuggingFaceDatasetLoaderHugging Face Hub 数据集加载。
HuggingFaceModelLoader
IFixitLoader加载 iFixit 修理指南、设备维基和答案。
IMSDbLoader加载 IMSDb 网页。
ImageCaptionLoader加载图像标题。
IuguLoaderIUGU 加载。
JSONLoader
JoplinLoaderJoplin 加载笔记。
KineticaLoaderKinetica API 加载。
LLMSherpaFileLoader使用 LLMSherpa 加载文档。
LakeFSLoaderlakeFS 加载。
LarkSuiteDocLoaderLarkSuite (飞书) 加载。
MHTMLLoader使用 BeautifulSoup 解析 MHTML 文件。
MWDumpLoaderMediaWiki XML 文件加载转储。
MastodonTootsLoader加载 Mastodon 的 'toots'。
MathpixPDFLoader使用 Mathpix 服务加载 PDF 文件。
MaxComputeLoaderAlibaba Cloud MaxCompute 表加载。
MergedDataLoader合并来自多个加载器的文档
ModernTreasuryLoaderModern Treasury 加载。
MongodbLoader加载 MongoDB 文档。
NewsURLLoader使用 Unstructured 从 URL 加载新闻文章。
NotebookLoader加载 Jupyter notebook (.ipynb) 文件。
NotionDBLoaderNotion DB 加载。
NotionDirectoryLoader加载 Notion directory 转储。
OBSDirectoryLoader华为 OBS 目录 加载。
OBSFileLoader华为 OBS 文件 加载。
ObsidianLoader从目录加载 Obsidian 文件。
OneDriveFileLoaderMicrosoft OneDrive 加载文件。
OneDriveLoaderMicrosoft OneDrive 加载。
OnlinePDFLoader加载在线 PDF
OpenCityDataLoaderOpen City 加载。
OracleAutonomousDatabaseLoader
OracleDocLoader使用 OracleDocLoader 读取文档
OutlookMessageLoader
PDFMinerLoader使用 PDFMiner 加载 PDF 文件。
PDFMinerPDFasHTMLLoader使用 PDFMinerPDF 文件作为 HTML 内容加载。
PDFPlumberLoader使用 pdfplumber 加载 PDF 文件。
PagedPDFSplitter使用 pypdf 将 PDF 加载为文档列表。
PebbloSafeLoaderPebblo Safe Loader 类是一个包装器,用于文档加载器,使数据
PlaywrightURLLoader使用 Playwright 加载 HTML 页面并使用 Unstructured 解析。
PolarsDataFrameLoader加载 Polars DataFrame。
PsychicLoaderPsychic.dev 加载。
PubMedLoaderPubMed 生物医学图书馆加载。
PyMuPDFLoader使用 PyMuPDF 加载 PDF 文件。
PyPDFDirectoryLoader使用 pypdf 加载包含 PDF 文件的目录,并在字符级别进行分块。
PyPDFLoader使用 pypdf 将 PDF 加载为文档列表。
PyPDFium2Loader使用 pypdfium2 加载 PDF 并在字符级别进行分块。
PySparkDataFrameLoader加载 PySpark DataFrames。
PythonLoader加载 Python 文件,尊重任何指定的非默认编码。
RSSFeedLoader使用 UnstructuredRSS 源加载新闻文章。
ReadTheDocsLoader加载 ReadTheDocs 文档目录。
RecursiveUrlLoader递归加载根 URL 的所有子链接。
RedditPostsLoader加载 Reddit 帖子。
RoamLoader从目录加载 Roam 文件。
RocksetLoaderRockset 数据库加载。
S3DirectoryLoaderAmazon AWS S3 目录加载。
S3FileLoaderAmazon AWS S3 文件加载。
SQLDatabaseLoader
SRTLoader加载 .srt(字幕)文件。
ScrapflyLoader将 URL 转换为可通过 llm 访问的 markdown,使用 Scrapfly.io
ScrapingAntLoader将 URL 转换为可通过 LLM 访问的 markdown,使用 ScrapingAnt
SeleniumURLLoader使用 Selenium 加载 HTML 页面并使用 Unstructured 解析。
SharePointLoaderSharePoint 加载。
SitemapLoader加载站点地图及其 URL。
SlackDirectoryLoaderSlack 目录转储加载。
SnowflakeLoaderSnowflake API 加载。
SpiderLoader使用 Spider AI 将网页加载为文档。
SpreedlyLoaderSpreedly API 加载。
StripeLoaderStripe API 加载。
SurrealDBLoader加载 SurrealDB 文档。
TelegramChatApiLoader加载 Telegram 聊天 json 目录转储。
TelegramChatFileLoaderTelegram 聊天 转储加载。
TelegramChatLoaderTelegram 聊天 转储加载。
TencentCOSDirectoryLoader腾讯云 COS 目录加载。
TencentCOSFileLoader腾讯云 COS 文件加载。
TensorflowDatasetLoaderTensorFlow Dataset 加载。
TextLoader加载文本文件。
TiDBLoader从 TiDB 加载文档。
ToMarkdownLoader使用 2markdown API 加载 HTML
TomlLoader加载 TOML 文件。
TrelloLoaderTrello 板加载卡片。
TwitterTweetLoader加载 Twitter 推文。
UnstructuredAPIFileIOLoader.. deprecated:: 0.2.8 请使用 langchain_unstructured.UnstructuredLoader
UnstructuredAPIFileLoader.. deprecated:: 0.2.8 请使用 langchain_unstructured.UnstructuredLoader
UnstructuredCHMLoader使用 Unstructured 加载 CHM 文件。
UnstructuredCSVLoader使用 Unstructured 加载 CSV 文件。
UnstructuredEPubLoader使用 Unstructured 加载 EPub 文件。
UnstructuredEmailLoader使用 Unstructured 加载电子邮件文件。
UnstructuredExcelLoader使用 Unstructured 加载 Microsoft Excel 文件。
UnstructuredFileIOLoader.. deprecated:: 0.2.8 请使用 langchain_unstructured.UnstructuredLoader
UnstructuredFileLoader.. deprecated:: 0.2.8 请使用 langchain_unstructured.UnstructuredLoader
UnstructuredHTMLLoader使用 Unstructured 加载 HTML 文件。
UnstructuredImageLoader使用 Unstructured 加载 PNGJPG 文件。
UnstructuredMarkdownLoader使用 Unstructured 加载 Markdown 文件。
UnstructuredODTLoader使用 Unstructured 加载 OpenOffice ODT 文件。
UnstructuredOrgModeLoader使用 Unstructured 加载 Org-Mode 文件。
UnstructuredPDFLoader使用 Unstructured 加载 PDF 文件。
UnstructuredPowerPointLoader使用 Unstructured 加载 Microsoft PowerPoint 文件。
UnstructuredRSTLoader使用 Unstructured 加载 RST 文件。
UnstructuredRTFLoader使用 Unstructured 加载 RTF 文件。
UnstructuredTSVLoader使用 Unstructured 加载 TSV 文件。

UnstructuredURLLoader|使用 Unstructured 从远程 URL 加载文件。|❌|❌
UnstructuredWordDocumentLoader|使用 Unstructured 加载 Microsoft Word 文件。|✅|❌
UnstructuredXMLLoader|使用 Unstructured 加载 XML 文件。|✅|❌
VsdxLoader||❌|❌
WeatherDataLoader|使用 Open Weather Map API 加载天气数据。|✅|❌
WebBaseLoader|使用 urllib 加载 HTML 页面并用 BeautifulSoup 解析。|✅|✅
WhatsAppChatLoader|加载 WhatsApp 消息文本文件。|✅|❌
WikipediaLoader|从 Wikipedia 加载。|✅|❌
XorbitsLoader|加载 Xorbits DataFrame。|✅|❌
YoutubeLoader|加载 YouTube 视频文字记录。|❌|❌
YuqueLoader|从 Yuque 加载文档。|❌|❌


此页面是否有帮助?


您还可以留下详细的反馈 在 GitHub 上