基于安培架构的专业GPU改变了数据科学和大数据分析

来源：CPDA数据分析师网　/　时间：2021-03-09

基于NVIDIA Ampere架构的产品实现了突破性的创新
第三代Tensor Core极大地提高了AI的速度，将训练时间从数周缩短至数小时，并提供大量的推理加速，Tensor Float（TF32）和Floating Point 64（仅FP64，仅NVIDIA A100）两个新的精度提高了AI的采用速度，并将Tensor Core的功能扩展到了HPC，TF32就像FP32一样工作，同时为AI提供了高达10倍的加速，而在利用稀疏性时无需进行任何代码更改。只需添加几行代码，即可调用自动混合精度和FP16进行性能优化，NVIDIA的第三代Tensor Core支持bfloat16，INT8和INT4，是用于AI训练和推理的功能极其强大的加速器。通过将Tensor Cores的功能引入HPC，NVIDIA A100能够以经IEEE认证的FP64精确度实现矩阵操作。

每个AI数据科学和HPC应用程序都可以从加速中受益
但并不是每个应用程序都需要完整的基于Ampere架构的GPU的性能，借助A100支持的多实例GPU（MIG），GPU可以划分为多达七个GPU实例，并通过它们自己的高带宽内存，缓存和计算核心在硬件级别完全隔离和保护，这为所有大小的应用带来了突破性的加速，并提供了有保证的服务质量，IT管理员可以提供适当大小的GPU加速，以实现利用率，并在裸机和虚拟化环境中扩展对每个用户和应用程序的访问权限。

具有40 GB GPU内存的A100 SXM4配置为数据中心带来了大量的计算性能
为了使这些计算引擎得到充分利用，DGX A100提供了领先的每秒1.6 TB的内存带宽，比上一代增加了67％。A100还具有更多的片上内存，其中包括40兆字节（MB）的2级缓存-比上一代大7倍-以限度地提高计算性能，PCIe板版本保留了40 GB的HBM2 GPU内存，内存总线宽度为5120位，峰值内存带宽高达1555 GB /秒，轻松获得了上一代Tesla V100的性能。

跨多个GPU扩展应用程序需要极快的数据移动速度
A100 SXM4中的第三代NVIDIA NVLink将GPU到GPU的直接带宽增加了一倍，达到每秒600 GB（GB /秒），几乎是PCIe Gen 4的10倍，PCIe 4.0 A100实施还具有NVLink总带宽600 GB /秒 NVIDIA DGX A100服务器可通过NVIDIA HGX A100底板利用NVLink和NVSwitch技术，为HPC和AI工作负载提供更大的可扩展性，对于喜欢部署PCIe主板的人，NVIDIA A100 PCIe选件完全支持NVLink。

当代的AI网络越来越大，规模越来越大

拥有数百万个参数，在某些情况下还有数十亿个参数，并非所有这些对于准确的预测和推断都是必需的，并且可以将其中一些转换为零以使模型“稀疏”而不会影响准确性，NVIDIA A100或RTX A6000中基于Ampere架构的Tensor内核为稀疏模型提供高达10倍的更高性能。尽管稀疏性功能更容易使AI推论受益，但它也可以用于改善模型训练的性能，NVIDIA RTX A6000和NVIDIA A40 GPU中基于NVIDIA Ampere架构的第二代RT内核为大数据分析，数据科学，AI和HPC用例提供了巨大的加速，在这种情况下，看到（可视化）问题对于解决问题至关重要，可以实现实时光线追踪以实现逼真的结果，并协同工作以提供AI去噪和其他提高生产力的功能。

返回列表