我们的邮箱地址:

shuddering@msn.com

致电我们:

13594780196

公司动态

  • Home
  • 使用 Amazon SageMaker 部署基础模型,借助 TruEra 进行迭代和监控 机器学习博

使用 Amazon SageMaker 部署基础模型,借助 TruEra 进行迭代和监控 机器学习博

2026-01-27 12:47:27 23

在 Amazon SageMaker 上部署基础模型,使用 TruEra 进行迭代和监控

关键要点

Amazon SageMaker JumpStart 提供多种预训练的基础模型,例如 Llama2 和 Mistal 7B,方便快速部署。通过评估模型与精心挑选的真实数据集,可以明确基础模型的适配需要。TruEra 为 LLM 应用提供可观察性,支持调试、监控和测试工作流。使用 SageMaker JumpStart 进行微调,可以显著提升模型性能并及时监控效果。

这篇文章探讨了如何使用 Amazon SageMaker 和 TruEra 来部署、微调和迭代基础模型,特别是针对生成式任务的基础模型。通过在 SageMaker 上部署的 Llama2 和其他基础模型,用户可以实现从生成文本到回答问题的多种应用。同时,TruEra 还提供了一系列反馈功能,可以在应用的开发与生产阶段进行有效的监测与评估。

基础模型的快速部署

Amazon SageMaker JumpStart 提供多种预训练的基础模型如 Llama2 和 Mistal 7B,可以迅速部署到端点。基础模型在生成任务上表现出色,包括文本撰写、总结、回答问题,以及生成图像和视频。尽管这些模型具有良好的泛化能力,但在某些情况下,模型需要适应新的任务或领域。评估模型与真实数据集匹配程度,是发现这种需求的一种方法。

功能描述模型微调使用特定数据集提高模型性能TruLens 评估用于评估和监控 LLM 应用的工具可观察性跟踪应用性能的能力,便于调试和改进

模型评估与微调

针对预先选择的真实数据集进行模型评估之后,如果需要适配模型,可以使用微调技术。微调后,再次使用真实数据集评估模型的有效性。下面的 notebook 展示了如何使用 SageMaker JumpStart 进行模型微调。

TruLens 的角色

TruLens 是一个用于评估和跟踪大型语言模型 (LLM) 应用的开源库。通过 TruLens,用户可以在开发和生产阶段快速评估和调试 LLM 应用。TruLens 的评估使用了一系列反馈函数,这些函数可通过 BERT 风格的模型、适当地提示的 LLM 等多种方式实现。TruLens 与 Amazon Bedrock 的集成使得用户能够利用 Amazon Bedrock 提供的 LLM 进行评估。在开发和生产环境中,Amazon Bedrock 基础设施的可靠性尤为重要。

使用 SageMaker 部署基础模型

在 SageMaker 中,您可以仅通过两行 Python 代码部署基础模型,例如 Llama2:

pythonfrom sagemakerjumpstartmodel import JumpStartModelpretrainedmodel = JumpStartModel(modelid=metatextgenerationllama27b)pretrainedpredictor = pretrainedmodeldeploy()

调用模型端点

部署后,您可以创建一个包含输入和模型参数的有效负载来调用已部署的模型端点:

pythonpayload = { inputs I believe the meaning of life is parameters { maxnewtokens 64 topp 09 temperature 06 returnfulltext False }}

然后可以简单地将此有效负载传递给端点的预测方法:

pythonresponse = pretrainedpredictorpredict(payload customattributes=accepteula=true)

使用 TruLens 评估性能

现在,您可以使用 TruLens 设置评估。TruLens 是一个可观察性工具,提供了一组可扩展的反馈函数,用于跟踪和评估 LLM 驱动的应用。通过使用诸如 Amazon Bedrock 提供的预训练模型,您可以有效地检验应用的性能。

轻蜂加速器下载官网

三个核心反馈函数

以下是三个核心反馈函数的功能概述:

上下文相关性 (Context Relevance) 评估提供的上下文与问题的相关性,确保在生成回答中不引入无关信息。

真实性 (Groundedness) 确保生成的回答与提供的上下文中的事实一致,避免模型在特定问题上产生幻觉。

答案相关性 (Answer Relevance) 评估模型生成的答案是否有效地回应了用户的输入。

通过这些反馈函数,您可以对模型的输出进行全面评估。这些反馈函数不仅有助于理解模型的表现,而且可以帮助开发者识别和解决可能的问题,以提高应用的整体性能。

结论

本文探讨了如何利用 SageMaker JumpStart、Amazon Bedrock 和 TruEra,加速您的 AI 应用的生产化进程,并在 LLN 应用中使用基础模型。要了解更多 TruEra 的信息,可以参考此 链接 进行尝试,并查看 notebook 获得代码示例。

关于作者

Josh Reini:开源 TruLens 的核心贡献者及 TruEra 的首席开发者关系数据科学家,负责教育工作和社区建设。

Shayak Sen:TruEra 的首席技术官和联合创始人,专注于构建更具可解释性的机器学习系统。

Anupam Datta:TruEra 的联合创始人、总裁兼首席科学家,曾在卡内基梅隆大学教授 15 年。

Vivek Gangasani:AWS 的生成 AI 初创公司解决方案架构师,帮助初创公司构建创新解决方案。

TAGS 生成式AI

使用 Amazon SageMaker 部署基础模型,借助 TruEra 进行迭代和监控 机器学习博

发表评论