关键要点: 在这篇文章中,我们介绍了 Amazon SageMaker最新版(0.25.0)的大型模型推理(LMI)深度学习容器(DLC),并增加了对 NVIDIA TensorRT-LLM库的支持。通过这些升级,Amazon SageMaker LMI TensorRT-LLM DLC 在 Llama2-70B、Falcon-40B 和 CodeLlama-34B 模型上平均减少了 33% 的延迟,平均提高了 60% 的吞吐量,使得大语言模型(LLMs)的优化、更高的性能表现和更好的性价比触手可及。
今天,**** 推出了大型模型推理深度学习容器(DLC)新版本(0.25.0),并增加了对 **** 的支持。借助这些改进,用户可以轻松访问最先进的工具,来优化 SageMaker 上的大语言模型并实现价格性能优势——Amazon SageMaker LMI TensorRT-LLM DLC在与公开的前一版本比较时,平均减少 33% 的延迟,同时提高 60% 的吞吐量 ,特别适用于 Llama2-70B、Falcon-40B 和 CodeLlama-34B 模型。
大语言模型在各种应用中得到了空前的关注。然而,由于这些模型通常过大,无法完全适配单个加速器或 GPU设备,因此实现低延迟推理和规模化变得相对困难。SageMaker 提供 LMI DLC 以帮助用户最大化利用可用资源并提升性能。最新的 LMI DLC支持持续批处理推理请求以提高吞吐量、有效的推理集合操作以改善延迟、以及 NVIDIA 最新的 TensorRT-LLM 库以优化 GPU 性能。LMIDLC 提供低代码接口,仅需模型 ID 和可选的模型参数,便可快速完成 TensorRT-LLM 的编译工作,所有构建 TensorRT-LLM优化模型和创建模型库的繁琐工作都由 LMI DLC 处理。此外,用户还可使用 LMI DLC 中最新的量化技术,如 GPTQ、AWQ 和 SmoothQuant。因此,借助 SageMaker 上的 LMI DLC,您可以加快对生成式 AI 应用的价值实现,并根据需要优化 LLM达成顶级的性价比。
在本文中,我们将深入探讨最新 LMI DLC 的新功能、性能基准,并概述使用 LMI DLC 部署 LLM 所需的步骤,以实现最佳性能并降低成本。
下面我们讨论 SageMaker LMI DLC 的三个新功能。
SageMaker 在最新的 LMI DLC 版本(0.25.0)中提供了 NVIDIA 的 TensorRT-LLM,支持针对大语言模型的最先进优化,如
SmoothQuant、FP8 和持续批处理。TensorRT-LLM 能够实现超低延迟体验,显著提升性能。TensorRT-LLM SDK 支持从单
GPU 部署到多 GPU 配置,采用张量并行等技术可进一步提升性能。要使用 TensorRT-LLM 库,可以选择可用的 **** ,并在诸如 option.model_id
和 engine=MPI
等其他
**** 中进行配置。以下图表展示了 TensorRT-LLM 的技术栈。
 Rishabh Ray Chaudhury 是 Amazon SageMaker的高级产品经理,专注于机器学习推理。他热衷于为 AWS 上的机器学习客户创新并构建新体验,以帮助扩展其工作负载。闲暇时,他享受旅行和烹饪。您可以在
上找到他。
删除)QingLan** 是 AWS 的软件开发工程师。他曾在 Amazon 开展多项挑战性产品的工作,包括高性能机器学习推理解决方案和高性能日志系统。Qing的团队成功推出了 Amazon Advertising 中第一个十亿参数模型,并满足低延迟的要求。Qing 对基础设施优化和深度学习加速有深入的知识。
![Jian删除)JianSheng 是 Amazon Web Services 的软件开发工程师,
Leave a Reply