当前位置:数码通 > 动态

微软使用 NVIDIA Triton 加速 AI Transformer 模型应用

来源于 数码通 2023-10-04 12:43

Microsoft 的目标是通过使用 Azure 与 NVIDIA GPU 和 Triton 推理软件,成为第一个将一组强大的AI Transformer 模型投入生产使用的公司。

如果您的软件能唤起人们喜悦的泪水,那么您就是在传播欢乐。

Translator 是一项 Microsoft Azure 认知服务,通过应用一些最大规模的 AI 模型来帮助更多人进行交流。

“有很多精彩的故事要讲!” Translator 开发经理 Vishal Chowdhary 说道。

例如,2010年海地遭受7.0级地震后,短短5天内就紧急在相关应用程序中添加了海地克里奥尔语支持,以帮助救援人员。再比如,当祖父母第一次使用这个软件与说着他们听不懂的语言的远方孙辈进行实时交流时,他们感动得哽咽起来。

雄心勃勃的目标

“我们的愿景是让这个 API(成千上万的开发者已经在使用)打破不同语言和不同模式之间的障碍,”Chowdhary 说。 。

考虑到目前世界上使用的语言大约有 7,000 种,这是一个雄心勃勃的目标。

因此,该团队采用了一种强大而复杂的工具,称为混合专家系统(MoE)人工智能方法。

这是一个非常先进的 Transformer 模型,正在推动自然语言处理的快速进步。它拥有 50 亿个参数,比团队在自然语言处理生产中使用的最大模型大 80 倍。

MoE模型计算量巨大,很难找到可以投入生产环境的用户。在最初的测试中,基于CPU的服务器无法满足团队一秒翻译文档的要求。

快 27 倍

随后,该团队使用 NVIDIA Triton 推理服务器对加速系统进行了测试,该服务器是本周在 GTC 上宣布的 NVIDIA AI Enterprise 2.0 平台的一部分。

“借助 NVIDIA GPU 和 Triton,我们能够非常高效地完成这项工作,”Chowdhary 说道。

事实上,与未优化的 GPU 运行时相比,该团队实现了高达 27 倍的加速。

“这使我们能够构建一个单一的模型来执行不同的语言理解任务,例如摘要、文本生成和翻译等,而无需为每个任务开发单独的模型。” Hanny Hassan Aw,微软首席研究员,负责监督测试广告alla 的意思。

Triton 如何提供帮助

微软的模型可以将大任务(例如翻译多个文档)分解为许多小任务,并在每个小任务中翻译数百个句子。 Triton 的动态批处理功能整合了许多此类请求,以充分利用 GPU 的强大功能。

该团队对 Triton 使用 CPU、GPU 或其他加速器以各种模式运行各种模型的能力赞不绝口。

Chowdhary 的团队十多年来一直致力于开发大规模分布式系统。 Chowdhary 表示:“这个解决方案深思熟虑地考虑了我的工作场景,提供了我想要的所有功能,就像我自己定制了该解决方案一样。

在幕后,两个软件组件是 Triton 成功的关键。其中之一是 NVIDIA Extended FasterTransformer,这是一个处理推理计算以支持 MoE 模型的软件层。另一个是 CUTLASS,这是一个 NVIDIA 数学库,可帮助高效地实现模型。

经过验证的原型可在四个星期内提供

尽管测试很复杂,但该团队通过与 NVIDIA 工程师 合作并利用 Triton 的强大功能,在不到一个月的时间内就制作出了一个可运行的端到端原型。

“在如此短的时间内生产出可供发布的产品的效率确实令人印象深刻,我对此非常感激,”Awadalla 说。

虽然这是该团队第一次使用 Triton,“我们用它来交付 MoE 模型,无需太多努力即可重建运行时环境,现在我真的很期待将该解决方案合并到我们的长期托管系统中。” ”乔杜里补充道。

采取下一步行动

加速服务将以深思熟虑的方式实施,最初将用于几种主要语言的文档翻译。

Chowdhary 表示:“我们的最终目标是让客户能够在所有场景下透明地享受这些新模型的优势。”

这项工作是 Microsoft 更广泛计划的一部分。其目的是推进 Office 和 Teams 等产品,并帮助所有类型的开发者和客户(从专注于构建一款应用的小型公司到财富 500 强公司)实现开发。

为了为这一计划铺平道路,Awadalla 的团队于去年 9 月发布了一项研究,内容涉及如何在 NVIDIA A100 Tensor Core GPU 上训练具有多达 2000 亿个参数的 MoE 模型。此后,该团队还在参数超过 3000 亿的模型上使用了 80G 版本的 A100 GPU,将性能提高了 8 倍。

“为了更好地表示更多语言,特别是我们没有大量数据的语言,模型必然会变得越来越大,”阿达瓦拉说。

原标题:GTC22 |促进人类交流:微软利用 NVIDIA Triton 提高 Translator 翻译工具的 AI 质量和效率

文章来源:【微信公众号:NVIDIANVIDIA】欢迎添加关注!转载文章时请注明出处。

审稿编辑:唐子红

-->
登录后参与评论