数据分析师

手机号

验证码

30天自动登录

数据分析师

基于安培架构的专业GPU改变了数据科学和大数据分析

来源:CPDA数据分析师网 / 时间:2021-03-09

基于NVIDIA Ampere架构的产品实现了突破性的创新
第三代Tensor Core极大地提高了AI的速度,将训练时间从数周缩短至数小时,并提供大量的推理加速,Tensor Float(TF32)和Floating Point 64(仅FP64,仅NVIDIA A100)两个新的精度提高了AI的采用速度,并将Tensor Core的功能扩展到了HPC,TF32就像FP32一样工作,同时为AI提供了高达10倍的加速,而在利用稀疏性时无需进行任何代码更改。只需添加几行代码,即可调用自动混合精度和FP16进行性能优化,NVIDIA的第三代Tensor Core支持bfloat16,INT8和INT4,是用于AI训练和推理的功能极其强大的加速器。通过将Tensor Cores的功能引入HPC,NVIDIA A100能够以经IEEE认证的FP64精确度实现矩阵操作。

每个AI数据科学和HPC应用程序都可以从加速中受益
但并不是每个应用程序都需要完整的基于Ampere架构的GPU的性能,借助A100支持的多实例GPU(MIG),GPU可以划分为多达七个GPU实例,并通过它们自己的高带宽内存,缓存和计算核心在硬件级别完全隔离和保护,这为所有大小的应用带来了突破性的加速,并提供了有保证的服务质量,IT管理员可以提供适当大小的GPU加速,以实现利用率,并在裸机和虚拟化环境中扩展对每个用户和应用程序的访问权限。

具有40 GB GPU内存的A100 SXM4配置为数据中心带来了大量的计算性能
为了使这些计算引擎得到充分利用,DGX A100提供了领先的每秒1.6 TB的内存带宽,比上一代增加了67%。A100还具有更多的片上内存,其中包括40兆字节(MB)的2级缓存-比上一代大7倍-以限度地提高计算性能,PCIe板版本保留了40 GB的HBM2 GPU内存,内存总线宽度为5120位,峰值内存带宽高达1555 GB /秒,轻松获得了上一代Tesla V100的性能。

跨多个GPU扩展应用程序需要极快的数据移动速度
A100 SXM4中的第三代NVIDIA NVLink将GPU到GPU的直接带宽增加了一倍,达到每秒600 GB(GB /秒),几乎是PCIe Gen 4的10倍,PCIe 4.0 A100实施还具有NVLink总带宽600 GB /秒 NVIDIA DGX A100服务器可通过NVIDIA HGX A100底板利用NVLink和NVSwitch技术,为HPC和AI工作负载提供更大的可扩展性,对于喜欢部署PCIe主板的人,NVIDIA A100 PCIe选件完全支持NVLink。

当代的AI网络越来越大,规模越来越大

拥有数百万个参数,在某些情况下还有数十亿个参数,并非所有这些对于准确的预测和推断都是必需的,并且可以将其中一些转换为零以使模型“稀疏”而不会影响准确性,NVIDIA A100或RTX A6000中基于Ampere架构的Tensor内核为稀疏模型提供高达10倍的更高性能。尽管稀疏性功能更容易使AI推论受益,但它也可以用于改善模型训练的性能,NVIDIA RTX A6000和NVIDIA A40 GPU中基于NVIDIA Ampere架构的第二代RT内核为大数据分析,数据科学,AI和HPC用例提供了巨大的加速,在这种情况下,看到(可视化)问题对于解决问题至关重要,可以实现实时光线追踪以实现逼真的结果,并协同工作以提供AI去噪和其他提高生产力的功能。



返回列表