HGX-2 由 16 块 NVIDIA® Tesla® V100 GPU 和 NVIDIA NVSwitch™ 助力加速,拥有卓越的计算能力、带宽和内存拓扑结构,能够更快且更高效地训练这些模型。16 块 Tesla V100 GPU 作为一个统一的加速器协调运作,性能可达 2 petaFLOP,GPU 总显存高达 0.5 兆兆字节 (TB),因而能够处理计算量巨大的工作负载,并可发挥“全球超大型 GPU”的超强功能。
我们正处于智能新时代的黎明前夜,深度学习、机器学习和高性能计算 (HPC) 正在改变世界。从自动驾驶汽车和零售物流优化到全球气候模拟,新的挑战层出不穷,而且需要庞大的计算资源才能加以解决。NVIDIA HGX-2 是性能超强的纵向扩展式加速服务器平台。它设计为具备混合精度计算能力,通过加速处理各种工作负载解决这些巨大的挑战。HGX-2 平台曾在 MLPerf(全行业首个 AI 基准测试)中夺得桂冠 - 它具有最高的单节点性能,并证明了自身是功能超强、用途广泛的可扩展计算平台。
AI 模型的复杂程度正呈爆炸式增长,且需配备大容量内存及多个 GPU 并需在 GPU 之间建立极速连接才能正常运作。HGX-2 利用 NVSwitch 连接所有 GPU 并拥有统一显存,能够有效处理这些新模型,从而加快先进 AI 的训练速度。一台 HGX-2 可取代 300 台采用 CPU 技术的服务器,因而能够大幅节省数据中心所用成本和空间并降低能耗。
HPC 应用程序需要配备拥有强大计算能力的服务器节点,方可在每秒内执行海量计算。增加每个节点的计算密度可大幅减少所需的服务器数量,因而能够极大节省数据中心所用成本和空间并降低功耗。在 HPC 模拟方面,高维矩阵乘法需要每台处理器从众多相邻处理器中提取数据以便开展计算,因而经由 NVSwitch 连接的 GPU 能够为其提供理想选择。一台 HGX-2 服务器可取代 60 台 CPU 服务器。
NVSwitch 能使所有 GPU 以 2.4 TB/秒的全带宽进行相互通信,以此解决一些重大的 AI 和 HPC 问题。每个 GPU 均可完全访问高达 0.5 TB 的 HBM2 总内存,以此处理庞大的数据集。通过启用统一的服务器节点,NVSwitch 能够极大加速复杂的 AI 和 HPC 应用程序。
HGX-1 | HGX-2 | |
---|---|---|
性能 | 1 petaFLOP tensor operations 125 teraFLOPS single-precision 62 teraFLOPS double-precision |
2 petaFLOPS tensor operations 250 teraFLOPS single-precision 125 teraFLOPS double-precision |
GPUs | 8 块 NVIDIA Tesla V100 | 16 块 NVIDIA Tesla V100 |
GPU 内存 | 共 256 GB | 共 512 GB |
NVIDIA CUDA® 核心数量 | 40,960 | 81,920 |
NVIDIA Tensor 核心数量 | 5,120 | 10,240 |
通信渠道 | 采用 NVLink 技术的混合立体网络 总速度为 300Gb/秒 | 采用 NVLink 技术的 NVSwitch 总速度为 2.4TB/秒 |
NVIDIA 正与世界领先的制造商合作,携手加速推进 AI 云计算。NVIDIA 能够为合作伙伴提供 HGX-2 GPU 基板和设计指南,并且这些合作伙伴可以抢先体验 GPU 计算技术,以便将这些计算技术集成在服务器中以及大规模部署至数据中心生态系统中。
了解高性能计算、深度学习和人工智能的最新进展。