当前位置:数码通 > 电脑

AGI之路:揭示NVIDIA A100、A800、H800、V100在高性能计算和大模型训练方面的统治力

来源于 数码通 2023-10-05 01:57

通用人工智能 |自然语言处理 | A100 | H100 |英伟达 |极光

GPT|法学硕士 | A800 |V100 | 英特尔 |聊天GPT

近来,在深度学习、高性能计算、大模型训练等技术的支持下,通用人工智能时代即将到来。各个厂家也如火如荼地进行着。例如前段时间发布的NVIDIAGH 200包含36个NVLink交换机,组合了256个GH200 Grace Hopper芯片和144TB。共享内存连接成一个单元。此外,NVIDIA A100、A800、H100、V100在大型模型训练中也很受欢迎。 AMD MI300X 的内存远远超过 120GB NVIDIA GPU 芯片 H100,最高可达 192GB。

6月22日,Intel(英特尔)宣布,美国能源部阿贡国家实验室已完成新一代超级计算机“Aurora”的安装。该超级计算机基于英特尔CPU和GPU,预计今年晚些时候上线,将提供超过2 exaflops的FP64浮点性能,超越美国能源部橡树岭国家实验室的“Front” “tier”有望成为世界上第一台理论峰值性能超过2 exaflops的超级计算机。

Aurora 超级计算机是英特尔、惠普 (HPE) 和美国能源部 (DOE) 之间的合作成果,旨在在模拟、数据分析和中利用高性能计算 (HPC)人工智能(AI)该领域的潜力。该系统由10,624个刀片服务器组成,每个刀片由两个Intel Xeon Max系列CPU(Xeon Max 9480)和六个Intel Max系列GPU组成。

作为一项先进的AI技术,GPT-4六大技术的推出将为人工智能领域带来巨大的突破和变革。 GPU作为核心服务器算力的重要载体,发挥着至关重要的作用。 GPU高效的处理能力和并行计算能力使其成为大规模语言模型训练的绝佳选择。然而,数据中心的算力瓶颈已成为限制其发展的主要因素之一。

在中国,各大公司也在争夺AI门票和GPU机会。这场竞争正在迅速推动中国人工智能领域的发展。 GPU的广泛应用将为中国企业在AI大模型训练领域获得更优势地位提供更多机会。

本文将深入探讨GPU在AI大模型训练领域的重要性和优势,并分析当前的挑战和机遇。同时,我们将探索如何优化GPU服务器适配,以实现大规模语言模型训练的突破。在接下来的内容中,我们将探讨如何解决数据中心的算力瓶颈,加速AI技术的进步,优化GPU服务器的适配,提升中国企业在AI领域的竞争力。这将引领我们进入人工智能新时代,为人工智能的发展创造更广阔的前景。

GPT-4六大技术创新

1. 大参数+大数据+算法创新

参数扩展是提高大型语言模型(LLM)能力的关键因素。 GPT-3首次将模型规模扩展到175B参数规模。在语言模型的早期阶段,性能与模型大小大致呈线性相关,但是当模型大小达到一定程度时,任务性能会出现明显的突变。大语言模型的基础是高度可扩展的,可以实现反复自我迭代。

参数对大型模型的性能起着重要作用

模型能力不仅取决于模型大小,还取决于数据大小和总计算量。此外,预训练数据质量对于实现良好的性能至关重要。

大型模型主要使用各种公共文本数据集进行预训练

预训练语料来源大致可分为两类:通用数据和专业数据。一般数据包括网页、书籍和对话文本。由于其规模大、多样性、易于获取,被广泛应用于大规模语言模型,可以增强语言建模和泛化能力。专业数据包括多语言数据、科学数据和代码等,使得语言模型具备解决特定任务的能力。

预训练大语言模型典型数据处理流程

成功训练强大的大语言模型 (LLM) 具有挑战性。为了实现LLM的网络参数学习,通常需要多种并行策略。 Transformer、DeepSpeed、Megatron-LM等多个优化框架已经发布,以方便并行算法的实现和部署。此外,优化技能对于训练稳定性和模型性能也至关重要。

目前,常用的LLM训练库有Transformers、DeepSpeed、Megatron-LM、JAX、Colossal-AI、BMTrain和FastMoe等。此外,现有的深度学习框架如PyTorch、 TensorFlow、MXNet、PaddlePaddle、MindSpore 和 OneFlow 也提供对并行算法的支持。

2. 变压器

Transformer 是 Google 在 2017 年的论文《Attention is All You Need》 中提出的。 GPT和BERT都使用Transformer模型。 Transformer 基于显着性的注意力机制为输入序列中的任意位置提供了上下文信息,使其具有强大的全局表示能力、高度并行性、无限的位置关联操作以及强大的通用性。可扩展性强等优点使得GPT模型具有优异的性能。

自注意力机制(Self-Attention)使得模型在处理每个单词(输入序列中的每个位置)时不仅关注当前位置的单词,还关注句子中其他位置的单词,从而更好地处理编码这个词。这种机制允许模型记住一个单词在同一个句子中与哪些单词同时出现。 Transformer模型基于自注意力机制,学习单词之间共现的概率。输入语料后,Transformer可以输出词与词共现的概率,并且可以捕获远距离上下文中词之间的双向关系。

3.RLHF

RLHF(Reinforcement Learning with Human Feedback)是 ChatGPT 使用的关键技术之一。它是强化学习 (RL) 的一个扩展分支,将人类反馈信息纳入训练过程。通过使用此反馈信息构建奖励模​​型神经网络,RLHF 向 RL智能代理提供奖励信号以帮助其学习。该方法可以更自然地以交互式学习的方式向智能体传达人类的需求、偏好和概念等信息,以协调人类和人工智能之间的优化目标,从而产生与人类行为和价值观一致的结果。系统。

4.提示

“提示”是为预先训练的语言模型提供的线索,旨在帮助其更好地理解人类问题。通过向输入添加额外的文本(线索/提示),您可以更充分地利用预训练模型中的知识。

Prompt案例演示

提示学习的基本过程包括四个步骤:提示构建、答案构建、答案预测、答案-标签映射。即时学习的优势主要体现在以下几个方面:1)预训练模型LM利用率高; 2)小样本场景训练效果提升; 3)微调成本显着降低等

即时调整与预训练和微调

上下文学习(ICL)是一种特殊的提示形式,首先在 GPT-3 中提出,并已成为利用预训练语言模型的典型方法。在情境学习中,首先从任务描述中选择一些示例作为演示。然后,这些示例按照特定的顺序组合起来,通过专门设计的模板形成自然语言提示。最后,测试实例被添加到演示中,作为预训练语言模型的输入以生成输出。基于这些任务演示,预训练的语言模型可以识别并执行新任务,而不需要显式的梯度更新。

情境学习(ICL)和思维链(CoT)的比较研究提示

5. 插件

由于预训练语言模型(LLM)是在大型纯文本语料库上进行训练的,因此它们在数值计算等非文本生成方面可能表现不佳。另外,LLM的能力受到预训练数据的限制,无法捕获最新的信息。为了解决这些问题,ChatGPT引入了外部插件机制,帮助ChatGPT获取最新信息、进行计算或使用第三方服务,类似于LLM的“眼睛和耳朵”,从而广泛扩展了LLM的能力范围。

截至 2023 年 5 月,ChatGPT 已更新,包括网页浏览功能和 70 个测试版插件。此更新有望彻底改变 ChatGPT 的使用方式,涵盖从娱乐和购物到求职和天气预报的一切。 ChatGPT 为插件开发者构建了一个社区,用于构建 ChatGPT 插件,并在语言模型显示的提示中列出已启用的插件,并提供指导文档来指导模型如何使用每个插件。

ChatGPT 插件部分显示

6.系统工程

OpenAI联合创始人兼首席执行官Sam Altman表示,GPT-4是人类有史以来创建的最复杂的软件系统。随着预训练语言模型 (LLM) 的增长,研发和工程之间的界限越来越模糊。 LLM的培训需要丰富的大规模数据处理和分布式并行培训经验。开发法学硕士学位的研究人员必须解决复杂的工程问题,并与工程师密切合作,或者自己成为工程师。

GPU是算力核心,服务器是重要载体

1、服务器:AI算力的重要载体

服务器是指具有较高计算能力、可以为多个用户提供服务的计算机。与个人计算机不同,个人计算机通常只为一个用户提供服务。服务器也不同于主机。主机通过终端设备向用户提供服务,服务器通过网络向客户端用户提供服务。

服务器主要类别

AI服务器是专门用于人工智能(AI)计算的服务器。它可以支持本地应用程序和网页,也可以为云和本地服务提供复杂的AI模型和服务。其主要功能是为各种实时AI应用提供实时计算服务。根据应用场景的不同,AI服务器可以分为训练和推理两种类型。训练服务器对芯片算力要求较高,而推理服务器对算力要求相对较低。

NVIDIA A100 服务器

蓝海大脑的高性能大模型训练平台利用工作流体作为中间传热介质,将热量从高温区域传递到较远的地方进行冷却。支持多种硬件加速器,包括CPU、GPU、FPGA、AI等,可满足大规模数据处理和复杂计算任务的需求。采用分布式计算架构,高效处理大规模数据和复​​杂计算任务,为深度学习、高性能计算、大模型训练、大语言模型(LLM)算法的研发提供强大的计算支持。具有高度的灵活性和可扩展性,可以根据不同的应用场景和需求进行定制。可以快速部署和管理各种计算任务,提高计算资源的利用率和效率。

1. 全球服务器市场

据Counterpoint报告显示,到2022年,全球服务器市场收入预计将同比增长17%,达到1117亿美元。在这个市场中,主要服务器公司包括戴尔、惠普、联想、浪潮、超微以及富士康、广达、纬创、英业达等ODM厂商。 ODM Direct的增长率比整体市场高出3个百分点,因此ODM Direct将成为大规模数据中心部署的硬件选择。根据IDC数据预测,2022年市场规模约为183亿美元,2023年市场规模将达到211亿美元。从市场份额来看,浪潮信息占据20.2%,其次戴尔、HPE、联想和华为,市场份额分别为13.8%、9.8%、6.1%和4.8%。

2021年全球服务器企业营收(单位:百万美元)

2.中国服务器市场

数据显示,2022年中国服务器市场规模将达到273.4亿美元。在该市场中,浪潮以28.1%的市场份额排名第一,营收达到530.63亿美元。 IDC数据显示,2022年中国加速服务器市场规模将达到67亿美元,同比增长24%。浪潮、新华三、宁昌位居市场前三名,占据60%以上的市场份额。互联网行业仍然是加速服务器采购量最大的行业,占据整体市场近半壁江山。

2022年中国AI服务器市场份额

2. GPU:AI算力的核心

在训练大型模型时,超大规模计算能力至关重要,而GPU是其中的核心。如果没有 GPU 卡,训练大型模型几乎是不可能的。

AI芯片是算力的核心,也称为AI加速器或计算卡。它们专门用于处理人工智能应用中的大量计算任务(而其他非计算任务则由CPU处理)。随着数据量的快速增长、算法模型的复杂性和处理对象的异构性,对计算性能的要求也越来越高。

数据显示,2022年GPU服务器将占我国AI服务器的89%。目前,GPU是应用最广泛的AI芯片之一。除了GPU之外,AI芯片还包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)和神经形态芯片(NPU)。 GPU是通用芯片,ASIC是专用芯片,FPGA介于两者之间,具有半定制的特点。

不同AI芯片对比

图形处理器 (GPU) 是专门用于执行绘图操作的微处理器。它也被称为显示核心、视觉处理器、显示芯片或图形芯片。它拥有数百或数千个核心,并经过优化以并行执行大量计算任务。尽管 GPU 最出名的是游戏中的 3D 渲染,但它们对于运行分析、深度学习和机器学习算法特别有用。与传统CPU相比,GPU可以使某些计算速度快10到100倍。 GPGPU是将GPU的图形处理能力应用到通用计算领域的处理器。

NVIDIA 数据中心 GPU 类别

2023年,英伟达全球营收将达到269.7亿美元。其中,图形业务部门的收入约为119亿美元,而计算和网络部门的收入为151亿美元。 2023年第一季度(Q1 FY24),英伟达数据中心业务收入达到42.8亿美元,创历史新高,同比增长14%,环比增长18%。

3. NVIDIA全系列大模型训练GPU介绍

自OpenAI发布ChatGPT以来,生成式人工智能技术一直是备受关注的热门趋势。这项技术需要强大的计算能力来生成文本、图像、视频和其他内容。在此背景下,算力成为人工智能领域的必要条件,而芯片巨头英伟达生产的人工智能芯片则在其中发挥着至关重要的作用。 NVIDIA推出了多款用于AI训练的芯片,例如V100、A100和H100。为了符合美国标准,NVIDIA推出了A800和H800产品两个带宽缩减版本,在中国大陆市场销售。

V100是NVIDIA推出的高性能计算和人工智能加速器,属于Volta架构系列。它采用16nm FinFET工艺,拥有5120个CUDA核心和16GB至32GB的HBM2内存。 V100还配备了Tensor Cores加速器,可提供高达120倍的深度学习性能提升。此外,V100支持NVLink技术,可实现GPU到GPU的高速通信,加速大规模模型的训练。 V100广泛应用于各种大规模AI训练和推理场景,包括自然语言处理、计算机视觉语音识别等领域。

A100是NVIDIA推出的一款强大的数据中心GPU,采用全新的Ampere架构。它拥有多达 6,912 个 CUDA 核心和 40GB 高速 HBM2 内存。 A100 还包含第二代 NVLink 技术,可实现快速 GPU 到 GPU 通信,从而加快大型模型的训练速度。此外,A100还支持NVIDIA自主研发的Tensor Cores加速器,可提供高达20倍的深度学习性能提升。 A100广泛应用于各种大规模人工智能训练和推理场景,包括自然语言处理、计算机视觉和语音识别。

在大型模型训练中,V100和A100都是非常强大的GPU。以下是它们的主要区别和优点:

1. 架构

V100 和 A100 在架构上有所不同。 V100采用Volta架构,而A100则采用新的Ampere架构。 Ampere架构相比Volta架构有一些改进,包括更好的能效和新的Tensor Core加速器设计,这使得A100在某些场景下有更好的表现。

2. 计算能力

A100配备了高达6,912个CUDA核心,比V100的5120个CUDA核心还要多。这意味着 A100 可以提供更高的每秒浮点运算 (FLOPS) 和更大的吞吐量,从而在处理大型模型和数据集时加快训练速度。

3. 存储带宽

V100的内存带宽约为900GB/s,而A100的内存带宽达到了更高的1555GB/s。高速内存带宽可以减少数据传输瓶颈,提高训练效率,因此A100在处理大数据集时可能会有更好的表现。

4. 存储容量

V100 最高可拥有 32GB 的 HBM2 显存,而 A100 最高可拥有 80GB 的 HBM2 显存。由于大型模型通常需要更多内存来存储参数和梯度,因此 A100 更大的内存容量可以提供更好的性能。

5. 沟通表现

A100支持第三代NVLink技术,实现GPU到GPU的高速通信,加速大型模型训练。此外,A100还引入了多实例GPU(MIG)功能,可以将单个GPU划分为多个独立实例,进一步提高资源利用率和性能。

一般来说,在处理大型模型和数据集时,A100可能会比V100表现更好,但在实际应用中,需要根据具体场景和需求选择合适的GPU。

数据中心算力瓶颈光模块需求不断增加

无论单卡性能多么强大,如果网络性能跟不上,你就只能无奈等待。而且,随着集群规模的扩大,网络带来的算力损失将会更加明显。传统的网络架构在传输数据时需要经过多层协议栈:需要反复停下来检查、排序和打包数据,这使得通信效率非常低。

1. Nvidia对InfiniBand的布局

数据通信设备是指能够实现IP网络接入终端、局域网、广域网连接、数据交换并提供相关安全防护功能的通信设备,包括交换机、路由器、WLAN等。交换机和路由器是最重要的设备之一。这些网络设备构成了互联网的物理基础设施层,是信息化建设必备的基础设施产品。

网络设备制造服务业上游主要包括芯片、PCB电源、各类电子元器件制造商。直接下游是各种网络设备品牌制造商。终端下游覆盖运营商、政府、金融、教育、能源、电力、交通、中小企业、医院等各行业。

2017-2024年中国网络设备市场规模统计(亿美元)

网络设备行业竞争格局高度集中。思科、华为、H3C等少数企业占据绝大多数市场份额,形成寡头竞争的市场格局。随着人工智能和高性能计算的需求不断增长,多节点、多GPU系统对高速通信的需求也不断增加。为了构建能够满足业务速度要求的强大的端到端计算平台,快速且可扩展的互连网络变得至关重要。

NVSwitch 是 NVIDIA 开发的一项技术,包括位于节点内部和外部的交换机,用于连接多个 GPU,以在服务器、集群和数据中心环境中使用。每个节点内的 NVSwitch 具有 64 个第四代 NVLink 链路端口,以加速多个 GPU 之间的连接。新一代NVSwitch技术将交换机总吞吐量从上一代的7.2Tb/s提升至13.6Tb/s。

NVIDIA结合了全新的NVLink和NVSwitch技术,构建了大规模的NVLink Switch系统网络,实现了前所未有的通信带宽水平。该系统支持多达256个GPU,互连节点能够提供57.6TB的多对多带宽,为FP8稀疏计算高达1 exaFLOP级别提供强大的计算能力。

基于DGX A100和DGX H100的32节点、256个GPU NVIDIA SuperPOD对比

InfiniBand 是一种面向高性能计算的计算机 网络通信 标准,具有高带宽和低延迟的特点。主要应用于高性能计算、高性能集群应用服务器、高性能存储等领域。为了加强在InfiniBand领域的投入,英伟达于2019年以69亿美元收购了Mellanox。这种新架构为AI开发者和科研人员提供了卓越的网络性能和丰富的功能。通过该技术,用户可以获得更快、更可靠的网络连接,以支持他们在人工智能领域的工作和研究。

InfiniBand广泛应用于全球超级计算中心

2.光模块:核心网络设备,AI训练拉动800G需求

预计Nvidia的H100 GPU和800G光模块在计算网络中的比例将根据不同级别而有所不同。服务器层,GPU与800G光模块的比例预计为1:1;在交换层,该比例预计为1:2。考虑到核心层交换机、管理网络、存储网络等因素,以及安装速率的相关考虑,总体来看,预计NVIDIA H100 GPU与800G光模块的比例大约在1:2到1之间:4。这种配置将确保计算能力网络内的高效通信和数据传输。

DGX H100数据网络配置图

2023年5月,英伟达推出DGX GH200,GH200是将 256 个NVIDIA Grace Hopper超级芯片完全连接,旨在处理用于大 规模推荐系统、生成式人工智能和图形分析的太字节级模型。NVLink交换系统采用两级、无阻塞、胖树结构。如下图:L1和L2层分为96和32台交换机,承载Grace Hopper超级芯片 的计算底板使用NVLink fabric第一层的定制线缆连接到NVLink交换机系统。LinkX电缆扩展了NVLink fabric的第二层连 接。我们预计GH200的推出将进一步促进800G光模块的需求增长。

DGX GH200通过NVLink将256个GPU完全联接

争夺AI入场券中国大公司竞逐GPU

全球范围内,英伟达GPU的竞争非常激烈。然而,海外巨头在GPU采购方面比较早,并且采购量更大,近年来的投资也相对连续。中国的大型公司对于GPU的需求和投资动作比海外巨头更为急迫。以百度为例,今年向英伟达下单的GPU订单数量高达上万块。尽管百度的规模要小得多,去年的营收仅为1236亿元人民币,相当于Google的6%。然而,这显示出中国大公司在GPU领域的迅速发展和巨大需求。

据了解,字节、腾讯、阿里和百度是中国投入最多的AI和云计算科技公司。在过去,它们累计拥有上万块A100 GPU。其中,字节拥有的A100数量最多。不计算今年的新增订单,字节拥有接近10万块A100和前代产品V100。成长期的公司商汤也宣称,其“AI大装置”计算集群中已经部署了2.7万块GPU,其中包括1万块A100。即使是看似与AI无关的量化投资公司幻方,也购买1万块A100。

从总数来看,这些GPU似乎足够供各公司训练大型模型使用。根据英伟达官方网站的案例,OpenAI在训练具有1750亿参数的GPT-3时使用了1万块V100,但训练时间未公开。根据英伟达的估算,如果使用A100来训练GPT-3,需要1024块A100进行一个月的训练,而A100相比V100性能提升4.3倍。

中国的大型公司过去采购的大量GPU主要用于支撑现有业务或在云计算平台上销售,不能自由地用于开发大模型或满足客户对大模型的需求。这也解释了中国AI从业者对计算资源估算存在巨大差异。清华智能产业研究院院长张亚勤在4月底参加清华论坛时表示:“如果将中国的算力加起来,相当于50万块A100,可以轻松训练五个模型。”

AI公司旷视科技的CEO印奇在接受《财新》采访时表示,中国目前可用于大型模型训练的A100总数只有约4万块。这反映了中国和外国大型公司在计算资源方面的数量级差距,包括芯片、服务器和数据中心等固定资产投资。最早开始测试ChatGPT类产品的百度,在过去几年的年度资本开支在8亿到20亿美元之间,阿里在60亿到80亿美元之间,腾讯在70亿到110亿美元之间。

与此同时,亚马逊、Meta、Google和微软这四家美国科技公司的自建数据中心的年度资本开支最低也超过150亿美元。在过去三年的疫情期间,海外公司的资本开支持续增长。亚马逊去年的资本开支已达到580亿美元,Meta和Google分别为314亿美元,微软接近240亿美元。而中国公司的投资在2021年后开始收缩。腾讯和百度去年的资本开支同比下降超过25%。

中国公司若想长期投入大模型并赚取更多利润,需要持续增加GPU资源。就像OpenAI一样,他们面临着GPU不足的挑战。OpenAI的CEO Sam Altman在与开发者交流时表示,由于GPU不够,他们的API服务不够稳定,速度也不够快。

在获得更多GPU之前,GPT-4的多模态能力无法满足每个用户的需求。同样,微软也面临类似的问题。微软与OpenAI合作密切,他们的新版Bing回答速度变慢,原因是GPU供应跟不上用户增长的速度。

微软Office 365 Copilot嵌入了大型模型的能力,目前还没有大规模开放,只有600多家企业在试用。考虑到全球近3亿的Office 365用户数量,中国大公司如果想利用大型模型创造更多服务,并支持其他客户在云上进行更多大型模型的训练,就需要提前储备更多的GPU资源。

AI大模型训练常用显卡

目前,在AI大型模型训练方面,A100、H100以及其特供中国市场的减配版A800、H800几乎没有替代品。根据量化对冲基金Khaveen Investments的测算,到2022年,英伟达在数据中心GPU市场的占有率将达到88%,而AMD和英特尔将瓜分剩下的市场份额。

英伟达GPU目前的不可替代性源于大模型的训练机制,其中关键步骤包括预训练和微调。预训练是为模型打下基础,相当于接受通识教育直至大学毕业;微调则是为了优化模型以适应具体场景和任务,提升其工作表现。

预训练阶段特别需要大量计算资源,对单个GPU的性能和多卡之间的数据传输能力有非常高的要求。目前只有A100和H100能够提供预训练所需的高效计算能力,尽管价格昂贵,但实际上是最经济的选择。在AI商业应用仍处于早期阶段,成本直接影响着服务的可用性。

过去的一些模型,如VGG16可以识别猫是猫,其参数量仅为1.3亿,当时一些公司会使用消费级显卡(如RTX系列)来运行AI模型。然而,随着GPT-3等大型模型的发布,参数规模已经达到1750亿。由于大型模型需要巨大的计算资源,使用更多低性能的GPU来组合计算力已经不再可行。

在使用多个GPU进行训练时,需要在芯片之间传输数据并同步参数信息,这导致部分GPU处于闲置状态,无法充分发挥工作能力。因此,使用性能较低的GPU越多,计算力的损耗就越大。OpenAI在使用1万块V100 GPU进行GPT-3训练时,算力利用率不到50%。而A100和H100既具有单卡高算力,又具备提升卡间数据传输的高带宽能力。A100的FP32算力达到19.5 TFLOPS(1 TFLOPS相当于每秒进行一万亿次浮点运算),而H100的FP32算力更高,达到134 TFLOPS,是竞争对手AMD MI250的约4倍。

A100、H100 还提供高效数据传输能力,尽可能减少算力闲置。英伟达的独家秘籍是自 2014 年起陆续推出的 NVLink、NVSwitch 等通信协议技术。用在 H100 上的第四代 NVLink 可将同一服务器内的 GPU 双向通信带宽提升至 900 GB/s(每秒传输 900GB 数据),是最新一代 PCle(一种点对点高速串行传输标准)的 7 倍多。

去年美国商务部对GPU的出口规定主要限制了算力和带宽两个方面:算力上限为4800 TOPS,带宽上限为600 GB/s。A800和H800的算力与原版相当,但带宽有所降低。

A800的带宽从A100的600GB/s降至400GB/s,H800的具体参数尚未公开,据报道,它的带宽仅为H100(900 GB/s)的约一半。执行相同的AI任务时,H800可能比H100多花费10%至30%的时间。一位AI工程师推测,H800的训练效果可能不如A100,但价格更高。

大模型训练工作站常用配置

尽管如此,A800和H800的性能仍然超过其他大公司和创业公司的同类产品。受限于性能和更专用的架构,各公司推出的AI芯片或GPU芯片主要用于AI推理,难以胜任大型模型的预训练任务。简而言之,AI训练是创建模型,而AI推理是使用模型,因此训练对芯片性能的要求更高。

除了性能差距外,NVIDIA的更大竞争优势在于其软件生态系统。早在2006年,NVIDIA推出了计算平台CUDA,它是一个并行计算软件引擎,开发者可以使用CUDA更高效地进行AI训练和推理,充分发挥GPU的计算能力。如今,CUDA已成为AI基础设施的标准,主流的AI框架、库和工具都是基于CUDA进行开发的。

而其他GPU和AI芯片如果要接入CUDA,就需要自己提供适配软件,但它们只能获得部分CUDA的性能,并且更新迭代的速度较慢。一些AI框架如PyTorch正在尝试打破CUDA的软件生态垄断,提供更多的软件功能以支持其他厂商的GPU,但对开发者的吸引力有限。一位AI从业者提到,他所在的公司曾考虑使用一家非NVIDIA的GPU厂商,对方的芯片和服务报价更低,也承诺提供更及时的支持,但他们最终判断,使用其他GPU会导致整体训练和开发成本高于使用NVIDIA,并且还需要承担结果的不确定性和花费更多的时间。“虽然A100的价格高,但实际使用起来是最经济的。”他说道。

对于那些有意抓住大型模型机会的大型科技公司和领先的创业公司来说,金钱通常不是问题,时间才是最宝贵的资源。在短期内,唯一可能影响NVIDIA数据中心GPU销量的因素可能只有台积电的产能。

H100/800和A100/800芯片都采用了台积电的4纳米和7纳米制程。根据台湾媒体报道,今年英伟达向台积电增加了1万片数据中心GPU订单,并且下达了超急件,生产时间可以缩短最多50%。通常情况下,台积电生产A100芯片需要数月时间。目前的生产瓶颈主要在于先进封装的产能不足,缺口达到了10%至20%,需要逐步提升产能,可能需要3至6个月的时间。

自从并行计算适用的GPU被引入深度学习领域以来,硬件和软件一直是推动AI发展的动力。GPU的计算能力与模型和算法的发展相互促进:模型的发展推动了对计算能力的需求增长,而计算能力的增长则使得原本难以实现的大规模训练成为可能。在以图像识别为代表的上一波深度学习热潮中,中国的AI软件能力已经与全球最前沿水平不相上下;而目前的难点在于计算能力——设计和制造芯片需要积累更长的时间,涉及到复杂的供应链和众多的专利壁垒。


审核编辑黄宇

-->
登录后参与评论