当前位置:数码通 > 科技

选择GPU服务器需要考虑哪些情况以及如何提升GPU存储性能

来源于 数码通 2023-10-05 09:13

GPU是我们常用的设备。 GPU的使用使得图形显示成为可能。在上一篇文章中,小编详细阐述了GPU的加速原理等知识。为了增强大家对GPU的了解,本文将基于两点来介绍GPU:1.选择GPU服务器时需要考虑哪些因素,2.如何提高GPU存储性能。如果您对GPU感兴趣,不妨继续阅读。

1.如何选择GPU服务器

选择好GPU型号后,就要考虑使用什么样的GPU服务器。这时候我们就需要考虑以下几种情况:

首先,在边缘服务器上,需要根据数量选择相应的服务器,例如T4或P4。同时,还必须考虑服务器的使用场景,例如火车站检查站、机场检查站、或者公安检查站;在Center端做推理的时候,可能需要V100的服务器,需要考虑吞吐量、使用场景、数量等。

其次,要考虑客户自身的用户人群和IT运维能力。对于BAT等大公司来说,自身运营能力比较强,此时会选择通用PCI-e服务器;而对于一些IT运维能力不是那么强的客户,他们更注重数字和数据标注等,我们称这些人为数据科学家,选择GPU服务器的标准也会有所不同。

第三,需要考虑支撑软件和服务的价值。

第四,要考虑整个GPU集群系统的成熟度和工程效率。比如像DGX这样的GPU集成超级计算机,从底层到Docker再到其他部分,都有非常成熟的操作系统驱动。是固定的、优化的,所以效率比较高。

2. 如何提升GPU存储性能

获得最佳 GPU 存储性能需要根据业务目标微调基础设施。以下是需要考虑的三种方法。

1.大规模性能调优

AI部署的快速增长和机器学习训练数据集的规模增加了计算基础设施的负担。 STFC(科学与Te技术设施委员会)就是其中的典型代表。尽管 STFC 添加了高端 GPU 服务器以提供更高的计算支持,但 STFC 缺乏跨数百个研究人员扩展资源所需的企业级存储功能。

通过在具有 RDMA 功能的高速网络(例如 Infiniband 或 RDMA over 融合以太网 (RoCE) v2)上实施 NVMe-over-Fabrics 协议大型 AI/ML 用户组(例如 STFC)可以在各种服务器上虚拟化 NVMe SSD 未使用存储资源池,以便它们像在本地一样运行。通过这样做,机器学习训练任务可以在一小时内完成,而不是以前需要三到四天的时间。即使是复杂的模型训练任务,GPU 存储也不再是瓶颈。

2. 在并行文件系统下使用 NVMe 池化存储

当AI和ML应用涉及从许多GPU服务器访问大量小文件时,需要部署并行分布式文件系统作为存储基础设施。并行文件系统还可以更轻松地存储大多数 AI/ML 使用所需的高吞吐量和低延迟。在并行文件系统下拥有快速、灵活的池化 NVMe 存储可以改善元数据的处理,从而实现更高的读取性能和更低的延迟,从而提高 GPU 服务器利用率。

例如,一家非常大的技术提供商最近推出了一款人工智能解决方案,用于预测保险公司使用的车辆碰撞场景。为了开发应用程序背后的 AI 逻辑,应用程序工作流程涉及通过摄取多达 2000 万个小文件的数据集来训练模型,每个文件的大小范围为 150-700 KB。数据提取的速度通常是每 8 小时提取 100 万个文件,或者每个客户端每秒提取最多 35,000 个文件。

通过使用并行分布式文件系统下的池化NVMe存储方法,该技术提供商消除了遇到的存储瓶颈,并将存储性能提高了3-4倍。

3.检查GPU特定的“高速公路”

新的数据中心架构正在以统一的方式提高服务器、网络和存储性能。 2019 年秋季推出的类似方法将多个供应商的基础设施元素与 GPU 优化的网络和存储集成在一起,以在 GPU 内存和存储之间打开直接数据通道,完全绕过打开CPU。这使得数据能够穿越GPU、存储和网络设备提供的“开放高速公路”,从而畅通无阻地获得NVMe企业级能力的卓越性能。

-->
登录后参与评论