当前位置:数码通 > 手机

蚂蚁链AIoT团队与NVIDIA合作加速AI推理

来源于 数码通 2023-10-04 15:27

蚂蚁链AIoT团队与NVIDIA合作,将量化感知训练(QAT)技术应用于深度学习模型性能优化,并通过NVIDIATensRT高性能推理SDK高效部署。通过INT8推理,吞吐量提升3倍,帮助蚂蚁链版权AI平台中的模型推理服务大幅降低成本、提高效率。 。

依托蚂蚁链自主研发的区块链和AI技术,以及金融级加密算法能力和云计算能力,蚂蚁链版权AI平台可以为数字媒体时代的内容管理者、内容平台和创作者提供一站式版权保护能力。 AI技术作为蚂蚁链版权平台的核心能力,可以快速提取音频、视频和图像特征,并在短时间内完成相似内容的自动识别和判断。得益于NVIDIA完整的软硬件生态系统,蚂蚁链团队不仅可以轻松地将深度学习模型推理服务部署在云端GPU上,而且在进一步合作过程中也成功将其集成到云端。 TensorRT支持的业界领先的INT8-QAT技术应用于版权保护业务模型,极大优化了AI模型的推理效率,实现单GPU吞吐量约300%提升,且精度几乎不损失。

利用深度学习模型高效自动识别相似内容是蚂蚁链版权AI平台的关键技术能力,这对AI模型开发提出了很高的技术挑战。一方面,多媒体版权保护业务场景中的作品侵权类型复杂多变。为了达到高召回率、低误报率的效果,蚂蚁链团队需要采用更加复杂的算法模型方案;另一方面,版权场景中高吞吐量和低成本的要求对模型提出了性能挑战。换句话说,算法模型所需的存储和计算资源必须有限,而推理性能必须很高。一般来说,这与模型的效果要求是矛盾的,因为深度学习模型的效果往往与模型的大小和所需的计算量有关。力呈正相关。这些复杂多维度的业务需求确实给团队的算法开发和优化工作带来了不小的挑战。

因此,蚂蚁链团队将算法研发拆解为不同的流程,以解决不同维度的业务需求。总之,优先开发满足业务性能指标的模型,然后利用模型压缩技术来优化模型存储和计算需求。要实现第二部分工作,需要依托NVIDIA相关的高性能AI模型软硬件生态系统。对推理加速的出色支持。一方面,NVIDIA GPU提供的强大并行计算能力和INT8 Tensor Core提供的整数计算能力为深度学习模型推理的高效实现奠定了基础;另一方面,NVIDIA TensorRT 8 SDK Integration中模型计算图的高效实现,以及新模型结构的支持和优化(例如QAT使用的QDQ结构和基于Transformer的模型)使我们能够生成高效的定量模型基于 PyTorch 模型的推理模型。其中,QAT是本项目中模型性能优化的重要技术。其最大的优点是,与浮点网络相比,它可以大大提高推理速度,同时几乎完全消除量化网络整数计算的数值精度。差异造成的算法效果的损失。近年来,随着NVIDIA在相关软硬件生态中对QAT技术的支持日趋完善,蚂蚁链团队希望借助NVIDIA的相关软硬件生态,将QAT技术应用到蚂蚁链版权AI项目中,以满足严格的要求。严格的业务需求。

基于以上挑战,蚂蚁链AIoT技术部与NVIDIA技术专家合作,引入QAT技术对深度学习模型进行性能优化,并将模型转换为TensorRT引擎部署到NVIDIA T4 GPU上进行在线推理。

首先,团队利用QAT技术在“伪量化”模式下对算法模型进行微调,让模型运行在INT8整数推理模式下,算法性能指标几乎没有损失。具体实施方案主要包括:利用NVIDIA PyTorch Quantization工具在模型中的一些特定位置插入量化/反量化节点,并在原始模型的基础上构建“伪量化”模型。紧接着,利用“伪量化”模型对原任务进行一定轮数的微调,使得模型参数在受到扰动的同时仍能收敛到局部最优。量化误差,并最终最小化量化推断。对模型算法指标产生负面影响。在实践中,蚂蚁链团队可以利用QAT技术将INT8模型的算法指标与单精度模型的相对差距缩小到0.2%以内,实现算法效果近乎无损的模型量化。

随后,需要将微调后的QAT模型转换为真正的INT8版本模型并部署到线上生产环境。这个过程主要依赖于NVIDIA提供的TensorRT高性能推理框架。与其他部署框架相比,TensorRT在NVIDIA GPU上显示出巨大的性能优势:一方面,通过图融合、内核调优等功能,可以自动精简网络结构,为模型搜索的每一层提供不同的ops优化CUDA内核等优化操作;更重要的是,从TensorRT 8.0开始,增加了针对“伪量化”节点的自动分析和融合功能,大大降低了QAT模型的实现门槛,使得QAT模型真正有可能展现出极高的推理能力性能与部署环境中的 INT8 后量化模型相似。实践中,使用INT8-QAT的模型相比单精度模型实现了单位时间吞吐量约300%的提升,极大提升了模型推理服务的效率;同时,量化模型较低的内存占用也给模型部署带来了好处。更大的灵活性。

借助NVIDIA在高性能模型推理方面完整的软硬件生态,蚂蚁链团队能够利用INT8-QAT技术,大幅优化蚂蚁链版权AI平台中模型推理服务的效率,帮助整个系统降低成本,提高效率。 300%的推理速度提升以及算法指标近乎无损的特性,让本项目的AI模型实现了效果和性能的兼备,帮助蚂蚁链正版AI平台在行业内建立了技术优势。

“版权保护是一个具有挑战性的技术领域。互联网内容类型多样、隐蔽性强、复制编辑方便,给我们带来了很多挑战。蚂蚁链版权保护平台自2019年发布以来,在音视频侵权检索、侵权比对、文章定位等方面做了大量深入的研究。我们的AIoT团队在2022年世界知识产权日向公众发布了蚂蚁链版权AI计算引擎,可以将相似内容精准提取到框架中,直接秒级反馈比对结果。这种细粒度的识别能力极大地提高了下游的工作效率。这也需要我们充分探索和利用NVIDIA INT8-QAT等加速技术,以达到效果和性能之间的最佳。平衡。接下来,我们还将向低成本、高性能的正版AI算法演进,让技术惠及更多普通创作者。”蚂蚁链高级AIoT算法专家张晓波、钱峰表示。

Review Editor: Tang Zihong

-->
登录后参与评论