TruLens

TruLens 是一个开源包，提供用于大型语言模型 (LLM) 基于应用程序的仪器和评估工具。

本页面介绍如何使用 TruLens 来评估和跟踪基于 langchain 构建的 LLM 应用。

安装与设置

安装 trulens-eval python 包。

pip install trulens-eval

快速入门

有关集成的详细信息，请参见 TruLens 文档。

追踪

一旦您创建了 LLM 链，您可以使用 TruLens 进行评估和追踪。 TruLens 提供了一些现成的反馈功能，并且还是一个可扩展的 LLM 评估框架。

创建反馈功能：

from trulens_eval.feedback import Feedback, Huggingface, 

# Initialize HuggingFace-based feedback function collection class:
hugs = Huggingface()
openai = OpenAI()

# Define a language match feedback function using HuggingFace.
lang_match = Feedback(hugs.language_match).on_input_output()
# By default this will check language match on the main app input and main app
# output.

# Question/answer relevance between overall question and answer.
qa_relevance = Feedback(openai.relevance).on_input_output()
# By default this will evaluate feedback on main app input and main app output.

# Toxicity of input
toxicity = Feedback(openai.toxicity).on_input()

链

在为您的 LLM 设置了反馈功能后，您可以使用 TruChain 包装您的应用程序，以获得对您的 LLM 应用程序的详细跟踪、日志记录和评估。

注意：有关 chain 创建的代码，请参见 TruLens 文档。

from trulens_eval import TruChain

# wrap your chain with TruChain
truchain = TruChain(
    chain,
    app_id='Chain1_ChatApplication',
    feedbacks=[lang_match, qa_relevance, toxicity]
)
# Note: any `feedbacks` specified here will be evaluated and logged whenever the chain is used.
truchain("que hora es?")

评估

现在您可以探索基于 LLM 的应用程序！

这样做将帮助您一目了然地了解您的 LLM 应用程序的性能。在您迭代新版本的 LLM 应用程序时，您可以比较它们在您设置的所有不同质量指标上的性能。您还将能够查看记录级别的评估，并探索每条记录的链元数据。

from trulens_eval import Tru

tru = Tru()
tru.run_dashboard() # open a Streamlit app to explore

有关 TruLens 的更多信息，请访问 trulens.org

TruLens

安装与设置

快速入门

追踪

链

评估

此页面是否有帮助？

您还可以留下详细的反馈在 GitHub 上

TruLens

安装与设置​

快速入门​

追踪​

链​

评估​

此页面是否有帮助？

您还可以留下详细的反馈 在 GitHub 上

安装与设置

快速入门

追踪

链

评估

您还可以留下详细的反馈在 GitHub 上