全面解析NVIDIA RTX A6000“核爆”性能

NVIDIA® Ampere 架构自发布以来，无论是新的功能还是性能的提升都吸引了大量业内外人士的关注。GA102的满血性能、第二代光线追踪硬件加速，第三代的Tensor Core加持，AV1的硬件解码，都是这次更新中非常亮眼的特性。NVIDIA® RTX™ A6000作为企业级专业应用市场的超高端显卡，企业级的专业用户对其都有很大的期待。

本次我们就针对这些专业用户测试一下RTX A6000相对于RTX 6000，都有哪些提升？性能提升了多少？

测试环境

测试说明

测试显卡规格对比

实测结果

1. CUDA-Z

CUDA-Z和CPU-Z、GPU-Z相类似，是对NVIDIA GPU处理器的一些基本信息的采集。

CUDA计算能力对比

从CUDA-Z的测试数据看，RTX A6000的单精度浮点运算最高性能达到了40T，这是RTX 6000的2.3倍的性能。所以涉及到单精度计算能力的应用，都会有翻倍的性能提升。双精度两张显卡依然都不高，需要双精度计算能力的，还是要选择NVIDIA A100 GPU或者NVIDIA Quadro GV100这种支持双精度计算能力高的显卡。

2. SPECviewperf 2020

SPECviewperf 2020主要是用来评测显卡专业图形性能的软件，其中包括了我们常见的3ds Max、Maya、Catia、UG NX、Solidworks、Creo软件性能测试，以及医疗和能量仿真性能测试。通过模拟对软件场景的交互操作的速度来评分，最终得出显卡的图形性能的相对性能。

测试截图

图形处理性能对比

以上数据是RTX A6000和RTX 6000性能的对比情况。在各个软件性能上都有不同程度的提升，性能基本上是1.1~1.2倍的提升，在Creo中提升的性能较少，在Energy仿真中会用到大量计算，所以性能提升较多达到了1.5倍的性能提升。

3. 离线渲染测试结果

渲染在媒体娱乐、设计制造以及建筑行业得到广泛的应用，目前很多渲染器均支持GPU渲染，渲染的速度就取决于显卡的计算速度。

Blender CUDA Benchmark(s)

离线渲染时间对比（CUDA）

Blender使用CUDA做渲染，RTX A6000相较于RTX 6000可以取得1.3-2.7倍的性能提升。

Blender OptiX Benchmark(s)

离线渲染时间对比（OptiX）

Blender可以支持CUDA和Optix光追渲染，使用光追的新技术渲染的速度明显比使用传统的CUDA速度更快。比如，在场景Victor中使用RTX A6000 CUDA渲染需要408秒的时间，而使用Optix光追渲染仅需要130秒，速度提高了3倍。相同设置下RTX A6000对比RTX 6000则有了1.5~2倍的性能提升。

V-Ray Benchmark

测试界面截图

离线渲染性能对比

V-Ray是目前比较主流的渲染器之一，从4.0开始支持GPU的离线渲染。同时支持CUDA和光线追踪两种加速渲染技术。从测试结果看相较RTX 6000，RTX A6000在V-Ray上取得2倍左右的渲染性能，渲染速度有了很大的提高。

Octane Benchmark

离线渲染性能对比

OC是传统的GPU渲染器，目前也支持Optix光追渲染。在开启了RTX渲染之后RTX A6000渲染性能是RTX 6000的1.6倍。

Autodesk VRED

离线渲染时间对比

Autodesk VRED有很多制造业的用户，可以支持VR、实时交互渲染和离线渲染。我们对比的是4K离线渲染的性能。在开启了光线追踪和全局光照的情况下，从成绩来看RTX A6000的渲染性能是RTX 6000的2倍。

对比离线渲染，Superposition是测试实时渲染的性能，摄像机在3D场景里漫游，显卡实时渲染物品运动、光影和材质然后输出到显示设备。

Superposition Benchmark

实时渲染性能对比

Superposition支持两种图形API的实时渲染，在DirectX上，有1.5倍的性能提升。在OpenGL上有1.3倍的性能提升。Superposition是基于Unigine2 渲染引擎的软件，所以基于Unigine开发的软件都会有不错的提升。

3DMark

实时渲染性能对比

3DMark测试的3项内容对比，全部都是基于DX12进行测试的，其中Port Royal是基于DXR的光线追踪性能的测试：

> Time Spy Extreme 4K实时渲染 RTX A6000的性能是RTX 6000的1.3倍；

> Time Spy FHD情况下RTX A6000是RTX 6000的1.2倍；

> Port Royal使用光线追踪渲染测试下，RTX A6000是RTX 6000的1.4倍性能。

这项测试主要测试的是游戏性能，依靠RTX A6000的高性能，像UE4、Unity的开发工作流都会取得很好的交互体验。

5. 解码测试

AV1解码是安培架构的最新一个功能，RTX A6000具有对AV1的硬解功能。本次解码测试对象选用的是8K 60fps的视频，编码格式为AV1，使用Potplayer视频播放软件进行测试。以下为RTX 6000和RTX A6000的解码测试对比。

CPU软件解码

测试截图

RTX 6000不支持AV1格式视频的硬解，所以只能使用CPU解码。原本60帧每秒的画面，解码程度只能达到46帧左右，此时画面会有卡顿。

RTX A6000硬件解码

测试截图

使用RTX A6000解码，可以实现每秒60帧实时解码，没有丝毫卡顿的感觉。而且此时解码芯片的里利用率仅占了30%左右。

6. DL ResNet50测试

每秒可处理的图片数对比

ResNet50训练半精情况下RTX A6000是RTX 6000的1.3倍，单精情况下RTX A6000是RTX 6000的1.6倍。

7. Image-classification测试

每秒可处理的图片数对比

在推理方面，RTX A6000集成了第三代Tensor Core核心，显卡整体的推理能力提升了。FP16和INT8差不多都是1.2倍左右的性能。

总结

NVIDIA RTX A6000采用的是8nm的工艺，可以让GPU可以集成更多的CUDA核心。RTX A6000作为满血版的GA102，计算性能的提升，在渲染、仿真、单精度计算方面都提高了很多。

在渲染方面，本次测评工具多选用大家常用的渲染软件，在与RTX 6000的对比之下，RTX A6000在其中大部分场景中都有2倍渲染速度的提升。RTX A6000 48GB的大显存可以加载更多的数据，承载更多的场景，让Blender、Davinci这种全部场景都要在显存里的计算软件，避免了因场景太大导致软件无法渲染的尴尬局面。

在解码方面，AV1解码功能的增加可以解决被迫使用CPU解码的性能问题，可以充分解放CPU，提高解码效率。

在深度学习和推理方面，RTX A6000也有了很大提升，在人工智能飞速发展的今天，可以提供更好的训练算力节省模型训练消耗的大量时间。

电脑装配网

全面解析NVIDIA RTX A6000“核爆”性能

人阅读 | 作者pangding | 时间：2023-11-03 09:04

相关文章