文档加载器
特性
以下表格显示了所有文档加载器的特性支持情况。
Document Loader | Description | Lazy loading | Native async support |
---|---|---|---|
AZLyricsLoader | 加载 AZLyrics 网页。 | ✅ | ✅ |
AcreomLoader | 从目录加载 acreom vault。 | ✅ | ❌ |
AirtableLoader | 加载 Airtable 表格。 | ✅ | ❌ |
AmazonTextractPDFLoader | 从本地文件系统、HTTP 或 S3 加载 PDF 文件。 | ✅ | ❌ |
ApifyDatasetLoader | 从 Apify 网络抓取、爬虫和数据提取平台加载数据集。 | ❌ | ❌ |
ArcGISLoader | 从 ArcGIS FeatureLayer 加载记录。 | ✅ | ❌ |
ArxivLoader | 从 Arxiv 加载查询结果。 | ✅ | ❌ |
AssemblyAIAudioLoaderById | ✅ | ❌ | |
AssemblyAIAudioTranscriptLoader | 加载 AssemblyAI 音频转录。 | ✅ | ❌ |
AstraDBLoader | .. deprecated:: 0.0.29 请使用 langchain_astradb.AstraDBLoader 。 | ✅ | ✅ |
AsyncChromiumLoader | 使用 | ✅ | ✅ |
AsyncHtmlLoader | 异步加载 HTML 。 | ✅ | ✅ |
AthenaLoader | 从 AWS Athena 加载文档。 | ✅ | ❌ |
AzureAIDataLoader | 从 Azure AI 数据加载。 | ✅ | ❌ |
AzureAIDocumentIntelligenceLoader | 使用 Azure Document Intelligence 加载 PDF。 | ✅ | ❌ |
AzureBlobStorageContainerLoader | 从 Azure Blob Storage 容器加载。 | ❌ | ❌ |
AzureBlobStorageFileLoader | 从 Azure Blob Storage 文件加载。 | ❌ | ❌ |
BSHTMLLoader | 加载 HTML 文件并使用 beautiful soup 解析。 | ✅ | ❌ |
BibtexLoader | 加载 bibtex 文件。 | ✅ | ❌ |
BigQueryLoader | .. deprecated:: 0.0.32 请使用 langchain_google_community.BigQueryLoader 。 | ❌ | ❌ |
BiliBiliLoader | ❌ | ❌ | |
BlackboardLoader | 加载 Blackboard 课程。 | ✅ | ✅ |
BlockchainDocumentLoader | 从区块链智能合约加载元素。 | ❌ | ❌ |
BraveSearchLoader | 使用 Brave Search 引擎加载。 | ✅ | ❌ |
BrowserbaseLoader | 使用托管在 Browserbase 上的无头浏览器加载预渲染网页。 | ✅ | ❌ |
BrowserlessLoader | 使用 Browserless /content 端点加载网页。 | ✅ | ❌ |
CSVLoader | 将 CSV 文件加载为文档列表。 | ✅ | ❌ |
CassandraLoader | ✅ | ✅ | |
ChatGPTLoader | 从导出的 ChatGPT 数据加载对话。 | ❌ | ❌ |
CoNLLULoader | 加载 CoNLL-U 文件。 | ❌ | ❌ |
CollegeConfidentialLoader | 加载 College Confidential 网页。 | ✅ | ✅ |
ConcurrentLoader | 并发加载和解析文档。 | ✅ | ❌ |
ConfluenceLoader | 加载 Confluence 页面。 | ✅ | ❌ |
CouchbaseLoader | 从 Couchbase 加载文档。 | ✅ | ❌ |
CubeSemanticLoader | 加载 Cube semantic layer 元数据。 | ✅ | ❌ |
DataFrameLoader | 加载 Pandas DataFrame。 | ✅ | ❌ |
DatadogLogsLoader | 加载 Datadog 日志。 | ❌ | ❌ |
DedocAPIFileLoader | ✅ | ❌ | |
DedocFileLoader | ✅ | ❌ | |
DedocPDFLoader | ✅ | ❌ | |
DiffbotLoader | 加载 Diffbot json 文件。 | ❌ | ❌ |
DirectoryLoader | 从目录加载。 | ✅ | ❌ |
DiscordChatLoader | 加载 Discord 聊天记录。 | ❌ | ❌ |
DocugamiLoader | .. deprecated:: 0.0.24 请使用 docugami_langchain.DocugamiLoader 。 | ❌ | ❌ |
DocusaurusLoader | 从 Docusaurus 文档加载。 | ✅ | ✅ |
Docx2txtLoader | 使用 docx2txt 加载 DOCX 文件并在字符级别进行分块。 | ❌ | ❌ |
DropboxLoader | 从 Dropbox 加载文件。 | ❌ | ❌ |
DuckDBLoader | 从 DuckDB 加载。 | ❌ | ❌ |
EtherscanLoader | 从 Ethereum 主网加载交易。 | ✅ | ❌ |
EverNoteLoader | 从 EverNote 加载。 | ✅ | ❌ |
FacebookChatLoader | 加载 Facebook Chat 消息目录转储。 | ✅ | ❌ |
FaunaLoader | 从 FaunaDB 加载。 | ✅ | ❌ |
FigmaFileLoader | 加载 Figma 文件。 | ❌ | ❌ |
FireCrawlLoader | 使用 FireCrawl 将网页加载为文档。 | ✅ | ❌ |
GCSDirectoryLoader | .. deprecated:: 0.0.32 请使用 langchain_google_community.GCSDirectoryLoader 。 | ❌ | ❌ |
GCSFileLoader | .. deprecated:: 0.0.32 请使用 langchain_google_community.GCSFileLoader 。 | ❌ | ❌ |
GeoDataFrameLoader | 加载 geopandas Dataframe。 | ✅ | ❌ |
GitHubIssuesLoader | 加载 GitHub 仓库的问题。 | ✅ | ❌ |
GitLoader | 加载 Git 仓库文件。 | ✅ | ❌ |
GitbookLoader | 加载 GitBook 数据。 | ✅ | ✅ |
GithubFileLoader | 加载 GitHub 文件 | ✅ | ❌ |
GlueCatalogLoader | 从 AWS Glue 加载表模式。 | ✅ | ❌ |
GoogleApiYoutubeLoader | 从 YouTube 频道加载所有视频。 | ❌ | ❌ |
GoogleDriveLoader | .. deprecated:: 0.0.32 请使用 langchain_google_community.GoogleDriveLoader 。 | ❌ | ❌ |
GoogleSpeechToTextLoader | .. deprecated:: 0.0.32 请使用 langchain_google_community.SpeechToTextLoader 。 | ❌ | ❌ |
GutenbergLoader | 从 Gutenberg.org 加载。 | ❌ | ❌ |
HNLoader | 加载 Hacker News 数据。 | ✅ | ✅ |
HuggingFaceDatasetLoader | 从 Hugging Face Hub 数据集加载。 | ✅ | ❌ |
HuggingFaceModelLoader | ✅ | ❌ | |
IFixitLoader | 加载 iFixit 修理指南、设备维基和答案。 | ❌ | ❌ |
IMSDbLoader | 加载 IMSDb 网页。 | ✅ | ✅ |
ImageCaptionLoader | 加载图像标题。 | ❌ | ❌ |
IuguLoader | 从 IUGU 加载。 | ❌ | ❌ |
JSONLoader | ✅ | ❌ | |
JoplinLoader | 从 Joplin 加载笔记。 | ✅ | ❌ |
KineticaLoader | 从 Kinetica API 加载。 | ✅ | ❌ |
LLMSherpaFileLoader | 使用 LLMSherpa 加载文档。 | ✅ | ❌ |
LakeFSLoader | 从 lakeFS 加载。 | ❌ | ❌ |
LarkSuiteDocLoader | 从 LarkSuite (飞书 ) 加载。 | ✅ | ❌ |
MHTMLLoader | 使用 BeautifulSoup 解析 MHTML 文件。 | ✅ | ❌ |
MWDumpLoader | 从 MediaWiki XML 文件加载转储。 | ✅ | ❌ |
MastodonTootsLoader | 加载 Mastodon 的 'toots'。 | ✅ | ❌ |
MathpixPDFLoader | 使用 Mathpix 服务加载 PDF 文件。 | ❌ | ❌ |
MaxComputeLoader | 从 Alibaba Cloud MaxCompute 表加载。 | ✅ | ❌ |
MergedDataLoader | 合并来自多个加载器的文档 | ✅ | ✅ |
ModernTreasuryLoader | 从 Modern Treasury 加载。 | ❌ | ❌ |
MongodbLoader | 加载 MongoDB 文档。 | ❌ | ✅ |
NewsURLLoader | 使用 Unstructured 从 URL 加载新闻文章。 | ✅ | ❌ |
NotebookLoader | 加载 Jupyter notebook (.ipynb) 文件。 | ❌ | ❌ |
NotionDBLoader | 从 Notion DB 加载。 | ❌ | ❌ |
NotionDirectoryLoader | 加载 Notion directory 转储。 | ❌ | ❌ |
OBSDirectoryLoader | 从 华为 OBS 目录 加载。 | ❌ | ❌ |
OBSFileLoader | 从 华为 OBS 文件 加载。 | ❌ | ❌ |
ObsidianLoader | 从目录加载 Obsidian 文件。 | ✅ | ❌ |
OneDriveFileLoader | 从 Microsoft OneDrive 加载文件。 | ❌ | ❌ |
OneDriveLoader | 从 Microsoft OneDrive 加载。 | ✅ | ❌ |
OnlinePDFLoader | 加载在线 PDF 。 | ❌ | ❌ |
OpenCityDataLoader | 从 Open City 加载。 | ✅ | ❌ |
OracleAutonomousDatabaseLoader | ❌ | ❌ | |
OracleDocLoader | 使用 OracleDocLoader 读取文档 | ❌ | ❌ |
OutlookMessageLoader | ✅ | ❌ | |
PDFMinerLoader | 使用 PDFMiner 加载 PDF 文件。 | ✅ | ❌ |
PDFMinerPDFasHTMLLoader | 使用 PDFMiner 将 PDF 文件作为 HTML 内容加载。 | ✅ | ❌ |
PDFPlumberLoader | 使用 pdfplumber 加载 PDF 文件。 | ❌ | ❌ |
PagedPDFSplitter | 使用 pypdf 将 PDF 加载为文档列表。 | ✅ | ❌ |
PebbloSafeLoader | Pebblo Safe Loader 类是一个包装器,用于文档加载器,使数据 | ✅ | ❌ |
PlaywrightURLLoader | 使用 Playwright 加载 HTML 页面并使用 Unstructured 解析。 | ✅ | ✅ |
PolarsDataFrameLoader | 加载 Polars DataFrame。 | ✅ | ❌ |
PsychicLoader | 从 Psychic.dev 加载。 | ✅ | ❌ |
PubMedLoader | 从 PubMed 生物医学图书馆加载。 | ✅ | ❌ |
PyMuPDFLoader | 使用 PyMuPDF 加载 PDF 文件。 | ✅ | ❌ |
PyPDFDirectoryLoader | 使用 pypdf 加载包含 PDF 文件的目录,并在字符级别进行分块。 | ❌ | ❌ |
PyPDFLoader | 使用 pypdf 将 PDF 加载为文档列表。 | ✅ | ❌ |
PyPDFium2Loader | 使用 pypdfium2 加载 PDF 并在字符级别进行分块。 | ✅ | ❌ |
PySparkDataFrameLoader | 加载 PySpark DataFrames。 | ✅ | ❌ |
PythonLoader | 加载 Python 文件,尊重任何指定的非默认编码。 | ✅ | ❌ |
RSSFeedLoader | 使用 Unstructured 从 RSS 源加载新闻文章。 | ✅ | ❌ |
ReadTheDocsLoader | 加载 ReadTheDocs 文档目录。 | ✅ | ❌ |
RecursiveUrlLoader | 递归加载根 URL 的所有子链接。 | ✅ | ❌ |
RedditPostsLoader | 加载 Reddit 帖子。 | ❌ | ❌ |
RoamLoader | 从目录加载 Roam 文件。 | ❌ | ❌ |
RocksetLoader | 从 Rockset 数据库加载。 | ✅ | ❌ |
S3DirectoryLoader | 从 Amazon AWS S3 目录加载。 | ❌ | ❌ |
S3FileLoader | 从 Amazon AWS S3 文件加载。 | ✅ | ❌ |
SQLDatabaseLoader | ✅ | ❌ | |
SRTLoader | 加载 .srt (字幕)文件。 | ❌ | ❌ |
ScrapflyLoader | 将 URL 转换为可通过 llm 访问的 markdown,使用 Scrapfly.io 。 | ✅ | ❌ |
ScrapingAntLoader | 将 URL 转换为可通过 LLM 访问的 markdown,使用 ScrapingAnt 。 | ✅ | ❌ |
SeleniumURLLoader | 使用 Selenium 加载 HTML 页面并使用 Unstructured 解析。 | ❌ | ❌ |
SharePointLoader | 从 SharePoint 加载。 | ✅ | ❌ |
SitemapLoader | 加载站点地图及其 URL。 | ✅ | ✅ |
SlackDirectoryLoader | 从 Slack 目录转储加载。 | ✅ | ❌ |
SnowflakeLoader | 从 Snowflake API 加载。 | ✅ | ❌ |
SpiderLoader | 使用 Spider AI 将网页加载为文档。 | ✅ | ❌ |
SpreedlyLoader | 从 Spreedly API 加载。 | ❌ | ❌ |
StripeLoader | 从 Stripe API 加载。 | ❌ | ❌ |
SurrealDBLoader | 加载 SurrealDB 文档。 | ❌ | ✅ |
TelegramChatApiLoader | 加载 Telegram 聊天 json 目录转储。 | ❌ | ❌ |
TelegramChatFileLoader | 从 Telegram 聊天 转储加载。 | ❌ | ❌ |
TelegramChatLoader | 从 Telegram 聊天 转储加载。 | ❌ | ❌ |
TencentCOSDirectoryLoader | 从 腾讯云 COS 目录加载。 | ✅ | ❌ |
TencentCOSFileLoader | 从 腾讯云 COS 文件加载。 | ✅ | ❌ |
TensorflowDatasetLoader | 从 TensorFlow Dataset 加载。 | ✅ | ❌ |
TextLoader | 加载文本文件。 | ✅ | ❌ |
TiDBLoader | 从 TiDB 加载文档。 | ✅ | ❌ |
ToMarkdownLoader | 使用 2markdown API 加载 HTML 。 | ✅ | ❌ |
TomlLoader | 加载 TOML 文件。 | ✅ | ❌ |
TrelloLoader | 从 Trello 板加载卡片。 | ✅ | ❌ |
TwitterTweetLoader | 加载 Twitter 推文。 | ❌ | ❌ |
UnstructuredAPIFileIOLoader | .. deprecated:: 0.2.8 请使用 langchain_unstructured.UnstructuredLoader 。 | ✅ | ❌ |
UnstructuredAPIFileLoader | .. deprecated:: 0.2.8 请使用 langchain_unstructured.UnstructuredLoader 。 | ✅ | ❌ |
UnstructuredCHMLoader | 使用 Unstructured 加载 CHM 文件。 | ✅ | ❌ |
UnstructuredCSVLoader | 使用 Unstructured 加载 CSV 文件。 | ✅ | ❌ |
UnstructuredEPubLoader | 使用 Unstructured 加载 EPub 文件。 | ✅ | ❌ |
UnstructuredEmailLoader | 使用 Unstructured 加载电子邮件文件。 | ✅ | ❌ |
UnstructuredExcelLoader | 使用 Unstructured 加载 Microsoft Excel 文件。 | ✅ | ❌ |
UnstructuredFileIOLoader | .. deprecated:: 0.2.8 请使用 langchain_unstructured.UnstructuredLoader 。 | ✅ | ❌ |
UnstructuredFileLoader | .. deprecated:: 0.2.8 请使用 langchain_unstructured.UnstructuredLoader 。 | ✅ | ❌ |
UnstructuredHTMLLoader | 使用 Unstructured 加载 HTML 文件。 | ✅ | ❌ |
UnstructuredImageLoader | 使用 Unstructured 加载 PNG 和 JPG 文件。 | ✅ | ❌ |
UnstructuredMarkdownLoader | 使用 Unstructured 加载 Markdown 文件。 | ✅ | ❌ |
UnstructuredODTLoader | 使用 Unstructured 加载 OpenOffice ODT 文件。 | ✅ | ❌ |
UnstructuredOrgModeLoader | 使用 Unstructured 加载 Org-Mode 文件。 | ✅ | ❌ |
UnstructuredPDFLoader | 使用 Unstructured 加载 PDF 文件。 | ✅ | ❌ |
UnstructuredPowerPointLoader | 使用 Unstructured 加载 Microsoft PowerPoint 文件。 | ✅ | ❌ |
UnstructuredRSTLoader | 使用 Unstructured 加载 RST 文件。 | ✅ | ❌ |
UnstructuredRTFLoader | 使用 Unstructured 加载 RTF 文件。 | ✅ | ❌ |
UnstructuredTSVLoader | 使用 Unstructured 加载 TSV 文件。 | ✅ | ❌ |
UnstructuredURLLoader|使用 Unstructured
从远程 URL 加载文件。|❌|❌
UnstructuredWordDocumentLoader|使用 Unstructured
加载 Microsoft Word
文件。|✅|❌
UnstructuredXMLLoader|使用 Unstructured
加载 XML
文件。|✅|❌
VsdxLoader||❌|❌
WeatherDataLoader|使用 Open Weather Map
API 加载天气数据。|✅|❌
WebBaseLoader|使用 urllib
加载 HTML 页面并用 BeautifulSoup
解析。|✅|✅
WhatsAppChatLoader|加载 WhatsApp
消息文本文件。|✅|❌
WikipediaLoader|从 Wikipedia
加载。|✅|❌
XorbitsLoader|加载 Xorbits
DataFrame。|✅|❌
YoutubeLoader|加载 YouTube
视频文字记录。|❌|❌
YuqueLoader|从 Yuque
加载文档。|❌|❌