arXiv
LangChain 实现了自然语言处理领域的最新研究。
本页面包含在 LangChain 文档、API 参考、模板和食谱中引用的 arXiv
论文。
反过来,科学家们在研究中使用 LangChain,并在研究论文中引用 LangChain。 在这里您可以找到 这样的论文。
摘要
| 2205.12654v1
使用蒸馏句子表示进行双语文本挖掘 | Kevin Heffernan, Onur Çelebi, Holger Schwenk | 2022-05-25 | API:
langchain_community...LaserEmbeddings
| 2204.00498v1
评估大型语言模型的文本到SQL能力 | Nitarshan Rajkumar, Raymond Li, Dzmitry Bahdanau | 2022-03-15 | API:
langchain_community...SparkSQL, langchain_community...SQLDatabase
| 2202.00666v5
局部典型采样 | Clara Meister, Tiago Pimentel, Gian Wiher, et al. | 2022-02-01 | API:
langchain_community...HuggingFaceEndpoint, langchain_huggingface...HuggingFaceEndpoint, langchain_community...HuggingFaceTextGenInference
| 2103.00020v1
从自然语言监督中学习可迁移的视觉模型 | Alec Radford, Jong Wook Kim, Chris Hallacy, et al. | 2021-02-26 | API:
langchain_experimental.open_clip
| 1909.05858v2
CTRL:用于可控生成的条件变换器语言模型 | Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney, et al. | 2019-09-11 | API:
langchain_community...HuggingFaceEndpoint, langchain_huggingface...HuggingFaceEndpoint, langchain_community...HuggingFaceTextGenInference
| 1908.10084v1
Sentence-BERT:使用Siamese BERT网络的句子嵌入 | Nils Reimers, Iryna Gurevych | 2019-08-27 | Docs:
docs/integrations/text_embedding/sentence_transformers
自我发现:大型语言模型自我构建推理结构
arXiv id: 2402.03620v1
标题: 自我发现:大型语言模型自我构建推理结构
作者: Pei Zhou, Jay Pujara, Xiang Ren, 等
发布日期: 2024-02-06
LangChain:
- 食谱: self-discover
摘要: 我们介绍了SELF-DISCOVER,一个通用框架,使大型语言模型自我发现任务内在的推理结构,以解决典型提示方法难以应对的复杂推理问题。该框架的核心是一个自我发现过程,在此过程中,大型语言模型选择多个原子推理模块,如批判性思维和逐步思维,并将它们组合成一个明确的推理结构,以便在解码过程中遵循。SELF-DISCOVER显著提高了GPT-4和PaLM 2在挑战性推理基准(如BigBench-Hard、基于现实的代理推理和MATH)上的表现,提升幅度可达32%,相比于思维链(CoT)。此外,SELF-DISCOVER在推理密集型方法(如CoT自一致性)上超越了20%以上,同时所需的推理计算减少了10-40倍。最后,我们展示了自我发现的推理结构在各个模型系列中普遍适用:从PaLM 2-L到GPT-4,再从GPT-4到Llama2,并与人类推理模式具有共性。
RAPTOR: 递归抽象处理用于树状组织检索
arXiv id: 2401.18059v1
标题: RAPTOR: 递归抽象处理用于树状组织检索
作者: Parth Sarthi, Salman Abdullah, Aditi Tuli, 等
发布日期: 2024-01-31
LangChain:
- 食谱: RAPTOR
摘要: 增强检索的语言模型能够更好地适应世界状态的变化并融入长尾知识。然而,大多数现有方法仅从检索语料库中提取短的连续文本块,限制了对整体文档上下文的全面理解。我们提出了一种新颖的方法,通过递归嵌入、聚类和总结文本块,从下而上构建具有不同摘要级别的树。在推理时,我们的RAPTOR模型从这棵树中检索信息,在不同的抽象层次上整合长文档中的信息。对照实验表明,使用递归摘要的检索在多个任务上显著优于传统的增强检索语言模型。在涉及复杂多步骤推理的问题回答任务中,我们展示了最先进的结果;例如,通过将RAPTOR检索与GPT-4结合,我们可以将QuALITY基准的最佳表现提高20%的绝对准确率。
修正检索增强生成
arXiv id: 2401.15884v2
Title: 修正检索增强生成
Authors: Shi-Qi Yan, Jia-Chen Gu, Yun Zhu, et al.
Published Date: 2024-01-29
LangChain:
- Cookbook: langgraph_crag
Abstract: 大型语言模型(LLMs)不可避免地会出现幻觉,因为生成文本的准确性不能仅仅通过它们所包含的参数知识来确保。尽管检索增强生成(RAG)是对LLMs的可行补充,但它在很大程度上依赖于检索文档的相关性,这引发了关于如果检索出错模型将如何表现的担忧。为此,我们提出了修正检索增强生成(CRAG),以提高生成的鲁棒性。具体而言,设计了一种轻量级的检索评估器,用于评估查询的检索文档的整体质量,并返回一个置信度,根据该置信度可以触发不同的知识检索操作。由于从静态和有限的语料库中检索只能返回次优文档,因此利用大规模网络搜索作为扩展以增强检索结果。此外,设计了一种分解再组合算法,用于检索到的文档,以选择性地关注关键信息并过滤掉其中的不相关信息。CRAG是即插即用的,可以与各种基于RAG的方法无缝结合。在涵盖短文本和长文本生成任务的四个数据集上的实验表明,CRAG可以显著提高基于RAG的方法的性能。
Mixtral of Experts
arXiv id: 2401.04088v1
Title: Mixtral of Experts
Authors: Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, et al.
Published Date: 2024-01-08
LangChain:
- Cookbook: together_ai
摘要: 我们介绍了 Mixtral 8x7B,一个稀疏专家混合模型(SMoE)语言模型。Mixtral 的架构与 Mistral 7B 相同,不同之处在于每一层由 8 个前馈块(即专家)组成。对于每个 token,在每一层,一个路由网络选择两个专家来处理当前状态并组合它们的输出。尽管每个 token 仅看到两个专家,但所选的专家在每个时间步可以是不同的。因此,每个 token 可以访问 47B 参数,但在推理过程中仅使用 13B 活跃参数。Mixtral 的训练上下文大小为 32k tokens,在所有评估基准中均优于或与 Llama 2 70B 和 GPT-3.5 持平。特别是,Mixtral 在数学、代码生成和多语言基准测试中大幅优于 Llama 2 70B。我们还提供了一个经过微调以遵循指令的模型,Mixtral 8x7B - Instruct,在人类基准测试中超越了 GPT-3.5 Turbo、Claude-2.1、Gemini Pro 和 Llama 2 70B - 聊天模型。基础模型和指令模型均在 Apache 2.0 许可下发布。
Dense X Retrieval: 我们应该使用什么检索粒度?
arXiv id: 2312.06648v2
Title: Dense X Retrieval: 我们应该使用什么检索粒度?
Authors: Tong Chen, Hongwei Wang, Sihao Chen, et al.
Published Date: 2023-12-11
LangChain:
- Template: propositional-retrieval
Abstract: Dense retrieval 已成为获取开放领域 NLP 任务中相关上下文或世界知识的突出方法。当我们在推理时对检索语料库使用学习到的密集检索器时,常常被忽视的设计选择是语料库的索引检索单元,例如文档、段落或句子。我们发现,检索单元的选择对检索和下游任务的性能有显著影响。与通常使用段落或句子的方法不同,我们为密集检索引入了一种新的检索单元,即命题。命题被定义为文本中的原子表达式,每个命题封装一个独特的事实,并以简明、自包含的自然语言格式呈现。我们对不同检索粒度进行了实证比较。我们的结果表明,基于命题的检索在密集检索中显著优于传统的基于段落或句子的方法。此外,基于命题的检索还增强了下游 QA 任务的性能,因为检索到的文本更为简洁,包含与问题相关的信息,从而减少了冗长输入标记的需求,并最小化了无关信息的包含。
Chain-of-Note: 提升检索增强语言模型的鲁棒性
arXiv id: 2311.09210v1
Title: Chain-of-Note: 提升检索增强语言模型的鲁棒性
Authors: Wenhao Yu, Hongming Zhang, Xiaoman Pan, 等
Published Date: 2023-11-15
LangChain:
- Template: chain-of-note-wiki
Abstract: 检索增强语言模型(RALMs)在大型语言模型的能力上代表了重要的进展,特别是在通过利用外部知识源来减少事实幻觉方面。然而,检索到的信息的可靠性并不总是有保障。检索到的不相关数据可能导致误导性响应,并可能使模型忽视其固有知识,即使在其拥有足够的信息来回答查询的情况下。此外,标准的 RALMs 通常难以评估它们是否具备足够的知识,包括内在知识和检索知识,以提供准确的答案。在知识缺乏的情况下,这些系统理想情况下应在答案无法获得时回应“未知”。针对这些挑战,我们引入了 Chain-of-Noting(CoN),这是一种旨在提高 RALMs 在面对嘈杂、不相关文档和处理未知场景时鲁棒性的创新方法。CoN 的核心思想是为检索到的文档生成顺序阅读笔记,从而能够对其与给定问题的相关性进行全面评估,并整合这些信息以形成最终答案。我们使用 ChatGPT 创建了 CoN 的训练数据,随后在 LLaMa-2 7B 模型上进行了训练。我们在四个开放领域 QA 基准上的实验表明,配备 CoN 的 RALMs 显著优于标准 RALMs。值得注意的是,在完全嘈杂的检索文档中,CoN 在 EM 分数上平均提高了 +7.9,对于超出预训练知识范围的实时问题,拒绝率提高了 +10.5。
Self-RAG: 通过自我反思学习检索、生成和批判
arXiv id: 2310.11511v1
Title: Self-RAG: 通过自我反思学习检索、生成和批判
Authors: Akari Asai, Zeqiu Wu, Yizhong Wang, et al.
Published Date: 2023-10-17
LangChain:
- Cookbook: langgraph_self_rag
Abstract: 尽管大型语言模型(LLMs)具有显著的能力,但由于仅依赖其封装的参数知识,它们往往会生成包含事实不准确的响应。检索增强生成(RAG)是一种临时方法,通过检索相关知识来增强语言模型,从而减少此类问题。然而,无差别地检索和整合固定数量的检索段落,无论检索是否必要或段落是否相关,都会降低语言模型的灵活性或导致无益的响应生成。我们引入了一种新的框架,称为自我反思检索增强生成(Self-RAG),通过检索和自我反思提升语言模型的质量和事实准确性。我们的框架训练一个单一的任意语言模型,该模型根据需求自适应地检索段落,并使用称为反思标记的特殊标记生成和反思检索到的段落及其自身生成的内容。生成反思标记使得语言模型在推理阶段可控,使其能够根据不同的任务需求调整行为。实验表明,Self-RAG(7B和13B参数)在一系列多样化任务上显著优于最先进的语言模型和检索增强模型。具体而言,Self-RAG在开放域问答、推理和事实验证任务上优于ChatGPT和检索增强的Llama2-chat,并在提高长文本生成的事实准确性和引用准确性方面相较于这些模型显示出显著的提升。
后退一步:通过抽象激发大型语言模型的推理能力
arXiv id: 2310.06117v2
Title: 后退一步:通过抽象激发大型语言模型的推理能力
Authors: Huaixiu Steven Zheng, Swaroop Mishra, Xinyun Chen, et al.
Published Date: 2023-10-09
LangChain:
- Template: stepback-qa-prompting
- Cookbook: stepback-qa
Abstract: 我们提出了后退一步提示,这是一个简单的提示技术,使得 LLMs能够进行抽象,从包含具体细节的实例中推导出高层次概念和基本原理。利用这些概念和原理来指导推理,LLMs显著提高了它们沿着正确推理路径找到解决方案的能力。我们对PaLM-2L、GPT-4和Llama2-70B模型进行了后退一步提示的实验,并观察到在各种具有挑战性的推理密集型任务中,包括STEM、知识问答和多跳推理,性能有显著提升。例如,后退一步提示使得PaLM-2L在MMLU(物理和化学)上的表现分别提高了7%和11%,在TimeQA上提高了27%,在MuSiQue上提高了7%。
Llama 2: 开放基础和微调聊天模型
arXiv id: 2307.09288v2
Title: Llama 2: Open Foundation and Fine-Tuned Chat Models
Authors: Hugo Touvron, Louis Martin, Kevin Stone, et al.
Published Date: 2023-07-18
LangChain:
- Cookbook: Semi_Structured_RAG
Abstract: 在这项工作中,我们开发并发布了 Llama 2,这是一系列预训练和微调的大型语言模型(LLMs),规模从 70 亿到 700 亿参数不等。我们的微调 LLM,称为 Llama 2-Chat,针对对话用例进行了优化。我们的模型在我们测试的大多数基准上优于开源聊天模型,并且基于我们对有用性和安全性的人工评估,可能是闭源模型的合适替代品。我们提供了关于 Llama 2-Chat 微调和安全改进方法的详细描述,以便社区能够在我们的工作基础上进行构建并为 LLM 的负责任发展做出贡献。
查询重写用于增强检索的大型语言模型
arXiv id: 2305.14283v3
标题: 查询重写用于增强检索的大型语言模型
作者: Xinbei Ma, Yeyun Gong, Pengcheng He, 等
发布日期: 2023-05-23
LangChain:
- 模板: rewrite-retrieve-read
- 食谱: rewrite
摘要: 大型语言模型(LLMs)在检索-再读取流程中充当强大的黑箱阅读器,在知识密集型任务中取得了显著进展。本研究从查询重写的角度引入了一种新的框架——重写-检索-读取,替代之前的检索-再读取。与以往研究集中于适应检索器或阅读器不同,我们的方法关注于搜索查询本身的适应性,因为输入文本与检索所需知识之间不可避免地存在差距。我们首先提示LLM生成查询,然后使用网络搜索引擎检索上下文。此外,为了更好地将查询与冻结模块对齐,我们提出了一种可训练的方案用于我们的流程。采用一个小型语言模型作为可训练的重写器,以适应黑箱LLM阅读器。重写器通过强化学习利用LLM阅读器的反馈进行训练。在下游任务、开放域问答和多项选择问答上进行了评估。实验结果表明,性能持续改善,表明我们的框架被证明是有效和可扩展的,并为增强检索的LLM带来了新的框架。
大语言模型引导的思维树
arXiv id: 2305.08291v1
标题: 大语言模型引导的思维树
作者: Jieyi Long
发布日期: 2023-05-15
LangChain:
- API 参考: langchain_experimental.tot
- 食谱: tree_of_thought
摘要: 在本文中,我们介绍了思维树(ToT)框架,这是一种旨在提高自回归大语言模型(LLMs)问题解决能力的新方法。ToT 技术受到人类思维在解决复杂推理任务时通过试错法的启发。在这个过程中,人类思维通过树状思维过程探索解决方案空间,必要时允许回溯。为了将 ToT 实现为软件系统,我们为 LLM 增强了额外的模块,包括提示代理、检查模块、记忆模块和 ToT 控制器。为了解决给定的问题,这些模块与 LLM 进行多轮对话。记忆模块记录对话和问题解决过程的状态历史,这使得系统能够回溯到思维过程的先前步骤,并从那里探索其他方向。为了验证所提技术的有效性,我们实现了一个基于 ToT 的数独求解器。实验结果表明,ToT 框架可以显著提高数独解题的成功率。我们实现的基于 ToT 的数独求解器可在 GitHub 上获取:\url{https://github.com/jieyilong/tree-of-thought-puzzle-solver}.
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models
arXiv id: 2305.04091v3
Title: Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models
Authors: Lei Wang, Wanyu Xu, Yihuai Lan, et al.
Published Date: 2023-05-06
LangChain:
- Cookbook: plan_and_execute_agent
摘要: 大型语言模型(LLMs)最近在各种自然语言处理(NLP)任务中显示出令人印象深刻的性能。为了解决多步骤推理任务,少量示例链式推理(CoT)提示包括一些手动制作的逐步推理示范,使得LLMs能够明确生成推理步骤并提高其推理任务的准确性。为了消除手动工作,零-shot-CoT将目标问题陈述与“让我们一步一步思考”连接作为LLMs的输入提示。尽管零-shot-CoT取得了成功,但仍然存在三个缺陷:计算错误、漏步错误和语义误解错误。为了解决漏步错误,我们提出了计划与解决(PS)提示。它由两个部分组成:首先,制定计划将整个任务划分为较小的子任务,然后根据计划执行子任务。为了应对计算错误并提高生成推理步骤的质量,我们在PS提示的基础上扩展了更详细的指令,并推导出PS+提示。我们在三个推理问题的十个数据集上评估了我们提出的提示策略。实验结果表明,我们提出的零-shot提示在所有数据集上始终大幅超越零-shot-CoT,与零-shot-程序思维提示相当或更优,并且在数学推理问题上与8-shot CoT提示的性能相当。代码可以在 https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting 找到。
视觉指令调优
arXiv id: 2304.08485v2
标题: 视觉指令调优
作者: Haotian Liu, Chunyuan Li, Qingyang Wu, 等
发布日期: 2023-04-17
LangChain:
摘要: 使用机器生成的指令跟随数据对大型语言模型 (LLMs) 进行指令调优,提高了在新任务上的零-shot 能力,但在多模态领域这一理念的探索较少。本文首次尝试使用仅语言的 GPT-4 生成多模态的语言-图像指令跟随数据。通过对这些生成数据进行指令调优,我们介绍了 LLaVA:大型语言与视觉助手,这是一个端到端训练的大型多模态模型,连接视觉编码器和 LLM,实现通用的视觉和语言理解。我们的早期实验表明,LLaVA 展现出令人印象深刻的多模态对话能力,有时在未见过的图像/指令上表现出类似多模态 GPT-4 的行为,并在合成多模态指令跟随数据集上与 GPT-4 的相对得分达到 85.1%。在 Science QA 上进行微调时,LLaVA 和 GPT-4 的协同作用实现了新的最先进准确率 92.53%。我们将 GPT-4 生成的视觉指令调优数据、我们的模型和代码库公开。
生成代理:人类行为的互动模拟体
arXiv id: 2304.03442v2
标题: 生成代理:人类行为的互动模拟体
作者: Joon Sung Park, Joseph C. O'Brien, Carrie J. Cai, 等
发布日期: 2023-04-07
LangChain:
摘要: 可信的人类行为代理可以增强从沉浸式环境到人际沟通排练空间再到原型工具的互动应用。在本文中,我们介绍了生成代理——模拟可信人类行为的计算软件代理。生成代理会醒来,做早餐,前往工作;艺术家绘画,作家写作;他们形成观点,互相注意,发起对话;他们回忆并反思过去的日子,同时计划第二天的活动。为了使生成代理能够运作,我们描述了一种架构,该架构扩展了大型语言模型,以使用自然语言存储代理的完整经历记录,随着时间的推移将这些记忆合成更高层次的反思,并动态检索以规划行为。我们实例化生成代理,以填充一个受《模拟人生》启发的互动沙盒环境,在该环境中,最终用户可以使用自然语言与一个由二十五个代理组成的小镇进行互动。在评估中,这些生成代理展现出可信的个体和新兴社会行为:例如,从仅一个用户指定的概念开始,即一个代理想要举办情人节派对,代理们在接下来的两天内自主传播派对邀请,结识新朋友,互相约会参加派对,并协调在正确的时间一起到达派对。我们通过消融实验展示了我们的代理架构的组成部分——观察、规划和反思——各自在代理行为的可信度上起着关键作用。通过将大型语言模型与计算互动代理相结合,这项工作引入了使人类行为可信模拟的架构和互动模式。
CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society
arXiv id: 2303.17760v2
Title: CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society
Authors: Guohao Li, Hasan Abed Al Kader Hammoud, Hani Itani, et al.
Published Date: 2023-03-31
LangChain:
- Cookbook: camel_role_playing
摘要: 聊天式语言模型的快速发展导致了复杂任务解决方面的显著进展。然而,它们的成功在很大程度上依赖于人类输入以指导对话,这可能是具有挑战性且耗时的。本文探讨了构建可扩展技术以促进交互代理之间自主合作的潜力,并提供了它们“认知”过程的见解。为了解决实现自主合作的挑战,我们提出了一种新的交互代理框架,称为角色扮演。我们的方法涉及使用启发式提示引导聊天代理完成任务,同时保持与人类意图的一致性。我们展示了角色扮演如何用于生成对话数据,以研究代理社会的行为和能力,为研究对话语言模型提供了宝贵资源。特别地,我们在多代理环境中进行了关于遵循指令合作的全面研究。我们的贡献包括引入一种新的交互代理框架,提供一种可扩展的方法来研究多代理系统的合作行为和能力,并开源我们的库以支持对交互代理及其他领域的研究:https://github.com/camel-ai/camel.
HuggingGPT: 利用ChatGPT及其在Hugging Face的朋友解决AI任务
arXiv id: 2303.17580v4
Title: HuggingGPT: 利用ChatGPT及其在Hugging Face的朋友解决AI任务
Authors: Yongliang Shen, Kaitao Song, Xu Tan, 等
Published Date: 2023-03-30
LangChain:
- API Reference: langchain_experimental.autonomous_agents
- Cookbook: hugginggpt
Abstract: 利用不同领域和模态解决复杂的AI任务是实现人工通用智能的关键一步。尽管有许多可用于各种领域和模态的AI模型,但它们无法自主处理复杂的AI任务。考虑到大型语言模型(LLMs)在语言理解、生成、交互和推理方面表现出色,我们认为LLMs可以作为控制器来管理现有的AI模型,以解决复杂的AI任务,语言作为一种通用接口来赋能这一过程。基于这一理念,我们提出了HuggingGPT,一个基于LLM的代理,利用LLMs(例如ChatGPT)连接机器学习社区(例如Hugging Face)中的各种AI模型以解决AI任务。具体来说,我们使用ChatGPT在接收到用户请求时进行任务规划,根据Hugging Face中可用的功能描述选择模型,使用所选的AI模型执行每个子任务,并根据执行结果总结响应。通过利用ChatGPT强大的语言能力和Hugging Face中丰富的AI模型,HuggingGPT能够处理跨越不同模态和领域的广泛复杂AI任务,并在语言、视觉、语音及其他挑战性任务中取得令人瞩目的成果,为实现人工通用智能开辟了一条新路径。
GPT-4 技术报告
arXiv id: 2303.08774v6
标题: GPT-4 技术报告
作者: OpenAI, Josh Achiam, Steven Adler, 等等.
发布日期: 2023-03-15
LangChain:
摘要: 我们报告了 GPT-4 的开发,这是一种大规模的多模态模型,可以接受图像和文本输入并生成文本输出。虽然在许多现实场景中不如人类,但 GPT-4 在各种专业和学术基准上表现出人类水平的性能,包括以约前 10% 的分数通过模拟律师资格考试。GPT-4 是一种基于 Transformer 的模型,经过预训练以预测文档中的下一个标记。后期训练对齐过程提高了事实性和遵循期望行为的性能。该项目的核心组成部分是开发在广泛规模下表现可预测的基础设施和优化方法。这使我们能够根据使用不超过 GPT-4 计算能力的 1/1,000 的模型准确预测 GPT-4 的某些性能方面。
大型语言模型的水印
arXiv id: 2301.10226v4
Title: 大型语言模型的水印
Authors: John Kirchenbauer, Jonas Geiping, Yuxin Wen, 等
Published Date: 2023-01-24
LangChain:
Abstract: 大型语言模型的潜在危害可以通过对模型输出进行水印处理来减轻,即在生成的文本中嵌入对人类不可见但可以通过算法检测的信号。我们提出了一种针对专有语言模型的水印框架。该水印可以在对文本质量影响极小的情况下嵌入,并且可以使用高效的开源算法进行检测,而无需访问语言模型的API或参数。水印的工作原理是在生成单词之前选择一组随机的“绿色”标记,然后在采样过程中轻柔地促进绿色标记的使用。我们提出了一种用于检测水印的统计检验,具有可解释的p值,并推导出一个信息论框架来分析水印的敏感性。我们使用来自开放预训练变换器(OPT)系列的数十亿参数模型对水印进行测试,并讨论其鲁棒性和安全性。
精确的零样本密集检索,无需相关性标签
arXiv id: 2212.10496v1
标题: 精确的零样本密集检索,无需相关性标签
作者: Luyu Gao, Xueguang Ma, Jimmy Lin, 等
发布日期: 2022-12-20
LangChain:
摘要: 尽管密集检索在各种任务和语言中已被证明是有效且高效的,但在没有相关性标签的情况下,创建有效的完全零样本密集检索系统仍然困难。在本文中,我们认识到零样本学习和编码相关性的困难。相反,我们提出通过假设文档嵌入~(HyDE)进行转变。给定一个查询,HyDE 首先零样本指导一个遵循指令的语言模型(例如 InstructGPT)生成一个假设文档。该文档捕捉了相关性模式,但不真实,可能包含错误的细节。然后,一个无监督对比学习编码器~(例如 Contriever) 将文档编码为嵌入向量。该向量在语料库嵌入空间中识别一个邻域,在此基础上根据向量相似性检索相似的真实文档。第二步将生成的文档与实际语料库联系起来,编码器的密集瓶颈过滤掉不正确的细节。我们的实验表明,HyDE 显著优于最先进的无监督密集检索器 Contriever,并在各种任务(例如网络搜索、问答、事实验证)和语言(例如 sw、ko、ja)中表现出与微调检索器相当的强大性能。
鲁棒且可解释的自然语言论证中的逻辑谬误识别
arXiv id: 2212.07425v3
Title: 鲁棒且可解释的自然语言论证中的逻辑谬误识别
Authors: Zhivar Sourati, Vishnu Priya Prasanna Venkatesh, Darshan Deshpande, et al.
Published Date: 2022-12-12
LangChain:
- API Reference: langchain_experimental.fallacy_removal
Abstract: 在互联网时代,错误信息、宣传和有缺陷的论证的传播得到了放大。鉴于数据量庞大以及识别论证规范违反的微妙性,使用能够识别逻辑谬误的可靠方法来支持信息分析任务(如内容审核)是至关重要的。本文将之前的逻辑谬误理论工作形式化为一个综合的三阶段评估框架,包括检测、粗粒度和细粒度分类。我们为评估的每个阶段调整现有的评估数据集。我们采用基于原型推理、基于实例推理和知识注入的三类鲁棒且可解释的方法。这些方法将语言模型与背景知识和可解释机制相结合。此外,我们通过数据增强和课程学习的策略解决数据稀疏问题。我们的三阶段框架原生整合了来自现有任务(如宣传检测)的先前数据集和方法,作为一个总体评估测试平台。我们在我们的数据集上广泛评估这些方法,重点关注它们的鲁棒性和可解释性。我们的结果提供了对这些方法在不同组件和谬误类别上的优缺点的洞察,表明谬误识别是一项具有挑战性的任务,可能需要专门形式的推理来捕捉各种类别。我们在GitHub上分享我们的开源代码和数据,以支持逻辑谬误识别的进一步工作。
有效上下文学习的补充解释
arXiv id: 2211.13892v2
Title: 有效上下文学习的补充解释
Authors: Xi Ye, Srinivasan Iyer, Asli Celikyilmaz, et al.
Published Date: 2022-11-25
LangChain:
- API Reference: langchain_core...MaxMarginalRelevanceExampleSelector
Abstract: 大型语言模型(LLMs)在从提示中的解释中学习方面展现了显著的能力,但对这些解释究竟如何发挥作用或为何有效的理解仍然有限。本研究旨在更好地理解解释在上下文学习中的使用机制。我们首先研究两种不同因素对带有解释的提示性能的影响:计算轨迹(解决方案的分解方式)和用于表达提示的自然语言。通过在三个受控任务中扰动解释,我们表明这两个因素都对解释的有效性有贡献。我们进一步研究如何形成最大有效的解释集以解决给定的测试查询。我们发现,LLMs可以从解释集的互补性中受益:不同示例所展示的多样推理技能可以带来更好的性能。因此,我们提出了一种基于最大边际相关性的示例选择方法,以构建既相关又互补的示例集,这成功提高了多个LLMs在三个现实任务上的上下文学习性能。
PAL: 程序辅助语言模型
arXiv id: 2211.10435v2
Title: PAL: 程序辅助语言模型
Authors: Luyu Gao, Aman Madaan, Shuyan Zhou, 等
Published Date: 2022-11-18
LangChain:
- API Reference: langchain_experimental...PALChain, langchain_experimental.pal_chain
- Cookbook: program_aided_language_model
Abstract: 大型语言模型(LLMs)最近展示了在提供少量示例时(“少量提示”)执行算术和符号推理任务的令人印象深刻的能力。其成功在很大程度上归因于诸如“思维链”的提示方法,这些方法利用LLMs通过将问题描述分解为步骤来理解问题,并解决每个步骤。尽管LLMs似乎擅长这种逐步分解,但在解决部分,LLMs往往会出现逻辑和算术错误,即使问题被正确分解。在本文中,我们提出了程序辅助语言模型(PAL):一种新颖的方法,利用LLM读取自然语言问题并生成程序作为中间推理步骤,但将解决步骤委托给运行时,例如Python解释器。通过PAL,将自然语言问题分解为可运行步骤仍然是LLM的唯一学习任务,而解决则委托给解释器。我们展示了神经LLM与符号解释器之间的这种协同作用,涵盖了来自BIG-Bench Hard和其他基准的13个数学、符号和算法推理任务。在所有这些自然语言推理任务中,使用LLM生成代码并利用Python解释器进行推理的结果比更大的模型更准确。例如,使用Codex的PAL在GSM8K数学文字问题基准上达到了最先进的少量准确率,绝对超越了使用思维链的PaLM-540B 15% 的top-1。我们的代码和数据在 http://reasonwithpal.com/ 上公开可用。
ReAct: 在语言模型中协同推理与行动
arXiv id: 2210.03629v3
Title: ReAct: 在语言模型中协同推理与行动
Authors: Shunyu Yao, Jeffrey Zhao, Dian Yu, 等。
Published Date: 2022-10-06
LangChain:
Abstract: 尽管大型语言模型(LLMs)在语言理解和互动决策方面展示了令人印象深刻的能力,但它们在推理(例如链式思维提示)和行动(例如行动计划生成)方面的能力主要被视为独立的主题。在本文中,我们探讨了使用LLMs以交错的方式生成推理痕迹和特定任务的行动,从而实现两者之间更大的协同效应:推理痕迹帮助模型诱导、跟踪和更新行动计划,并处理异常,而行动则使其能够与外部来源(如知识库或环境)进行交互,以收集额外信息。我们将我们的方法命名为ReAct,应用于一系列多样的语言和决策任务,并展示其在先进基准上的有效性,以及在没有推理或行动组件的方法上改善的人类可解释性和可信度。具体而言,在问答(HotpotQA)和事实验证(Fever)任务中,ReAct通过与简单的维基百科API交互,克服了链式思维推理中普遍存在的幻觉和错误传播问题,并生成了比没有推理痕迹的基准更具可解释性的人类任务解决轨迹。在两个互动决策基准(ALFWorld和WebShop)上,ReAct的绝对成功率分别比模仿学习和强化学习方法高出34%和10%,同时仅用一个或两个上下文示例进行提示。项目网站及代码:https://react-lm.github.io
Deep Lake: 一个用于深度学习的湖仓
arXiv id: 2209.10785v2
Title: Deep Lake: 一个用于深度学习的湖仓
Authors: Sasun Hambardzumyan, Abhinav Tuli, Levon Ghukasyan, et al.
Published Date: 2022-09-22
LangChain:
- Documentation: docs/integrations/providers/activeloop_deeplake
Abstract: 传统数据湖为分析工作负载提供了关键的数据基础设施,通过实现时间旅行、运行SQL查询、以ACID事务摄取数据以及在云存储上可视化PB级数据集。它们使组织能够打破数据孤岛,解锁数据驱动的决策,改善运营效率并降低成本。然而,随着深度学习的使用增加,传统数据湖并不适合自然语言处理(NLP)、音频处理、计算机视觉以及涉及非表格数据集的应用。本文介绍了Deep Lake,一个由Activeloop开发的开源湖仓,专为深度学习应用而设计。Deep Lake保持了普通数据湖的优势,唯一的区别是:它以张量的形式存储复杂数据,如图像、视频、注释以及表格数据,并快速通过网络流式传输数据到(a)Tensor Query Language,(b)浏览器内可视化引擎,或(c)深度学习框架,而不会牺牲GPU的利用率。存储在Deep Lake中的数据集可以从PyTorch、TensorFlow、JAX访问,并与众多MLOps工具集成。
使用提炼句子表示法进行低资源语言的双语文本挖掘
arXiv id: 2205.12654v1
Title: 使用提炼句子表示法进行低资源语言的双语文本挖掘
Authors: Kevin Heffernan, Onur Çelebi, Holger Schwenk
Published Date: 2022-05-25
LangChain:
- API Reference: langchain_community...LaserEmbeddings
Abstract: 扩展多语言表示学习超出最常见的百种语言是具有挑战性的,尤其是为了覆盖低资源语言的长尾。一个有前景的方法是训练一个适用于所有语言的多语言模型,能够进行跨语言转移,但这些模型通常会因容量不足和无关语言之间的干扰而受到影响。相反,我们远离这种方法,专注于训练多个语言(家族)特定的表示,最重要的是使所有语言仍然能够在相同的表示空间中编码。为了实现这一点,我们专注于师生训练,使所有编码器在双语文本挖掘中相互兼容,并能够快速学习新语言。我们引入了一种新的师生训练方案,结合了监督和自监督训练,使编码器能够利用单语训练数据,这在低资源环境中是非常宝贵的。我们的做法显著优于原始的LASER编码器。我们研究了非常低资源的语言,并处理了50种非洲语言,其中许多语言未被其他模型覆盖。对于这些语言,我们训练句子编码器,挖掘双语文本,并通过训练NMT系统来验证双语文本。
评估大型语言模型的文本到SQL能力
arXiv id: 2204.00498v1
标题: 评估大型语言模型的文本到SQL能力
作者: Nitarshan Rajkumar, Raymond Li, Dzmitry Bahdanau
发布日期: 2022-03-15
LangChain:
摘要: 我们对Codex语言模型的文本到SQL能力进行了实证评估。我们发现,在没有任何微调的情况下,Codex在Spider基准测试中表现出色;我们还分析了Codex在这种情况下的失败模式。此外,我们在GeoQuery和Scholar基准测试中展示了在提示中提供少量领域内示例可以使Codex的表现超过在这些少样本示例上进行微调的先进模型。
局部典型采样
arXiv id: 2202.00666v5
Title: 局部典型采样
Authors: Clara Meister, Tiago Pimentel, Gian Wiher, 等
Published Date: 2022-02-01
LangChain:
Abstract: 当今的概率语言生成器在生成连贯和流畅文本方面存在不足,尽管基础模型在标准指标(例如困惑度)下表现良好。这种差异让语言生成社区困惑了几年。在这项工作中,我们假设将自然语言生成抽象为离散随机过程——这允许进行信息论分析——可以为概率语言生成器的行为提供新的见解,例如,为什么高概率文本可能显得乏味或重复。人类使用语言作为传递信息的手段,旨在以一种高效且最小化错误的方式进行交流;事实上,心理语言学研究表明,人类在选择字符串中的每个单词时都潜意识地考虑着这一目标。我们正式定义满足这一标准的字符串集合:每个单词的信息内容接近预期信息内容,即我们模型的条件熵。然后,我们提出了一种简单有效的程序,在从概率模型生成时强制执行这一标准,我们称之为局部典型采样。自动和人工评估显示,与核采样和top-k采样相比,局部典型采样在质量上提供了具有竞争力的表现(在抽象摘要和故事生成方面),同时持续减少了退化重复。
从自然语言监督中学习可转移的视觉模型
arXiv id: 2103.00020v1
Title: 从自然语言监督中学习可转移的视觉模型
Authors: Alec Radford, Jong Wook Kim, Chris Hallacy, 及其他
Published Date: 2021-02-26
LangChain:
- API Reference: langchain_experimental.open_clip
Abstract: 先进的计算机视觉系统被训练来预测一组固定的预定对象类别。这种限制形式的监督限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。从关于图像的原始文本中直接学习是一种有前景的替代方案,它利用了更广泛的监督来源。我们证明,简单的预训练任务,即预测哪个标题与哪个图像相匹配,是一种有效且可扩展的方法,可以从互联网上收集的4亿个(图像,文本)对的数据集中从头学习SOTA图像表示。在预训练之后,自然语言被用来引用学习到的视觉概念(或描述新的概念),使模型能够零样本转移到下游任务。我们通过在30多个不同的现有计算机视觉数据集上进行基准测试来研究这种方法的性能,这些数据集涵盖了OCR、视频中的动作识别、地理定位和多种类型的细粒度对象分类等任务。该模型在大多数任务中非平凡地转移,并且通常与完全监督的基线竞争,而无需任何特定于数据集的训练。例如,我们在ImageNet上零样本匹配了原始ResNet-50的准确性,而无需使用它训练时的128万训练示例。我们在https://github.com/OpenAI/CLIP发布我们的代码和预训练模型权重。
CTRL: 一个用于可控生成的条件变换器语言模型
arXiv id: 1909.05858v2
Title: CTRL: 一个用于可控生成的条件变换器语言模型
Authors: Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney, et al.
Published Date: 2019-09-11
LangChain:
Abstract: 大规模语言模型展现出良好的文本生成能力,但用户无法轻松控制生成文本的特定方面。我们发布了CTRL,一个具有16.3亿参数的条件变换器语言模型,旨在基于控制代码进行条件生成,这些控制代码管理样式、内容和任务特定行为。控制代码源自与原始文本自然共现的结构,保留了无监督学习的优势,同时提供了对文本生成的更明确控制。这些代码还允许CTRL预测给定序列时训练数据中最可能的部分。这提供了一种通过基于模型的源归因分析大量数据的潜在方法。我们已在https://github.com/salesforce/ctrl发布了多个完整的预训练版本的CTRL。
Sentence-BERT: 使用Siamese BERT网络的句子嵌入
arXiv id: 1908.10084v1
Title: Sentence-BERT: 使用Siamese BERT网络的句子嵌入
Authors: Nils Reimers, Iryna Gurevych
Published Date: 2019-08-27
LangChain:
- Documentation: docs/integrations/text_embedding/sentence_transformers
Abstract: BERT (Devlin et al., 2018) 和 RoBERTa (Liu et al., 2019) 在句子对回归任务如语义文本相似性 (STS) 上设定了新的最先进的性能。然而,它要求将两个句子输入网络,这导致了巨大的计算开销:在10,000个句子中找到最相似的对需要大约5000万次推理计算(约65小时)使用BERT。BERT的构造使其不适合语义相似性搜索以及聚类等无监督任务。 在本出版物中,我们提出了Sentence-BERT (SBERT),这是对预训练BERT网络的修改,使用Siamese和三元组网络结构来导出具有语义意义的句子嵌入,这些嵌入可以通过余弦相似度进行比较。这将寻找最相似对的工作量从使用BERT / RoBERTa的65小时减少到使用SBERT的约5秒,同时保持BERT的准确性。 我们在常见的STS任务和迁移学习任务上评估SBERT和SRoBERTa,在这些任务中,它超越了其他最先进的句子嵌入方法。