之前的GeForce RTX 4090显卡已经为英伟达全新的Ada Lovelace架构打响了第一枪,不过12999元的售价并不是所有人都消费得起的,接下来的新显卡布局将慢慢向着更便宜售价的型号布局,而随着GeForce RTX 4080 12GB的取消,意味着目前官宣的Ada Lovelace架构显卡除了RTX 4090就是RTX 4080了,并且也不用特别称呼为RTX 4080 16GB。
一般来说,英伟达的“80”后缀相比其旗舰型号是有很大的性能差距幅度的,一般会是不同于旗舰型号的核心芯片,比如GTX 1080用的是GP104,RTX 2080用的是TU104,而上一代算是个特例,RTX 3080以及RTX 3080 Ti用的都是GA102,这也是为什么在游戏方面RTX 3080 Ti甚至有超过RTX 3090的表现,好在之后的RTX 3090 Ti通过极大的提高了频率,才让这一代的旗舰型号最终还是与RTX 3080/RTX 3080 Ti拉出显著差距,独占鳌头。
而到了Ada Lovelace这一代,英伟达的“80”后缀型号又回到传统策略,RTX 4080采用了不同于RTX 4090的全新AD103核心,这是否意味着RTX 4080的性能相比目前旗舰的RTX 4090又会是有明显差距的一代呢?本篇评测我们就来一探究竟。
Ada Lovelace架构解析
Ada Lovelace架构的创新大体上可以分为三个板块,分别是带来了新的全景光线追踪、着色器执行重排序(SER)和DLSS 3,这是一个大致的认识,而这些还可以往下细分,比如新的全景光线追踪的实现就包含有新的RT核心、更多的着色器以及新的Tensor核心,而DLSS 3更是一系列技术的结合。
全景光线追踪游戏画面
全景光线追踪,从名字就能看出来它对于光线追踪的计算要求有了巨大的提高,拿《赛博朋克2077》来说,NVIDIA发布会演示的《赛博朋克2077》是将要发布的最新版,添加了“Overdrive”这一究极画质模式,大家可以欣赏一下这个画质下的画面魅力。
RTX OFFRTX OFFRTX ONRTX ON
对比的话会更加明显,以《逆水寒》为例可以看到现在的全景光线追踪相对比没有光线追踪的画面观感,明显让游戏体验上升好几个档次。
RTX OFFRTX OFFRTX ONRTX ON
全景光线追踪通过Path Tracing追踪场景中的每一个像素上的光照信息,提供像素级完美的阴影、令人惊叹的反射和之前看不到的水面折射,在《逆水寒》拂云庭场景中提供令人难以置信、如照片般逼真的细节,昼夜都有自然的全局光照,由 NVIDIA 基于储层的时空重要性重采样全局光照 (ReSTIR GI) 构建,光线准确无误。
RTX OFFRTX OFFRTX ONRTX ON
表面和纹理拥有令人惊叹的基于物理效果的细节,可确保这些效果能够以自然、逼真的方式交互,从而增强画质和沉浸感。为了对光线追踪结果进行降噪,《逆水寒》利用了 NVIDIA Real Time Denoiser (NRD)。
而要实现这样的画面表现,这个画质模式下游戏画面的每个像素会执行约635次光线追踪计算来确定光照,4年前的《战地5》首次引入实时光线追踪技术只会对画面的每个像素执行约39次光线追踪计算,等于说现在可以实现的游戏画面相比4年前提高了16倍的计算要求。
理论上要实现这样的计算要求,在技术没有革新的情况下,GPU的晶体管数目也需要增长16倍才能满足需求,这显然不现实,事实上,芯片的晶体管数目每两年能增加一倍就已经很不错了。
而Ada Lovelace架构的技术革新就解决了这个问题,在晶体管数目仅增加约4倍的情况下,却可以输出计算需求量远超4倍的游戏画面。那么它是怎么做到的呢?这我们就要深入到其架构核心图里面去深究了。
GPC规模暴涨
我们还是先从完整的核心图来看,它仍然沿用了从NVIDIA Pascal架构开始定下的GPC-TPC-SM层级架构,这也让我们可以很明显的看到其规模相比上一代显著增大了,Ada Lovelace中最大核心的GPC从Ampere的最大7个猛增到12个,增幅为71.4%,就算其他部分没有技术革新,仅仅这个暴涨的GPC规模就已经能带来很强的性能提升了。
除此之外,与上代的架构核心图对比的话,会很明显的发现二级缓存部分的变化可以说是最大、最明显的,Ada Lovelace的二级缓存规模暴涨——是上一代的16倍。另外一个从完整核心图上也很容易看到的区别就是Ada Lovelace没有了NVLink总线模块,这个设计方向其实之前早有痕迹。
GPC架构图
深入到GPC里面,会发现这一代仍然是每组GPC包含6组TPC、一个独立光栅引擎、两个ROP分区(每个包含8个ROP单元),而每组TPC又包含2组SM。这样的组成是与上一代Ampere一模一样的,所以相应的Ada Lovelace的TPC和SM单元也分别增长到最多72个和144个。
SM架构图
再继续深入到SM单元里面,会发现其整体的结构也是与上一代Ampere架构一模一样,分为四个一样的主要计算模块,一个RT光追核心,以及128KB一级数据缓存/共享内存等。
而且每个主要的计算模块内的结构也和Ampere架构一样,有64KB寄存器文件、零级指令缓存、一个Warp调度器、一个分配单元、16个FP32单精度浮点CUDA核心、16个FP32/INT32单精度浮点和整数混合CUDA核心、一个Tensor Core张量核心、四个载入存储单元、一个特殊功能单元(SFU)用于执行图形差值指令。
而差别也很明显,那就是RT Core光追核心从之前的第二代升级到第三代,Tensor Core张量核心也从第三代升级到第四代。
第三代RT Core有效光追算力是上代3倍
全新的第三代RT Core可以提供2倍的光线与三角形求交性能,并且加入了两个全新的重要硬件单元——Opacity Micro-Map引擎和Displaced Micro-Mesh引擎。
Opacity Micro-Map引擎将光线追踪的Alpha-Test几何性能提升2倍;而全新的Displaced Micro-Mesh引擎可动态生成微网格,以产生额外的几何图形。Displaced Micro-Mesh引擎可在提升几何图形丰富度的同时,不以传统复杂几何图形处理的性能和存储成本为代价。
Displaced Micro-Mesh引擎
我们知道光线追踪的计算是以光线射向一个平面这样的模型来计算的,而实际的渲染中物体几乎不会是简单的平面型,而是各种曲面,所以就需要将曲面分解成许多个小的三角形平面,然后计算光线与三角形求交。在Ampere架构上,面对一个复杂的曲面,如果想得到逼真的光线追踪效果,那么分解的三角形平面是非常多的,多个三角形平面带来非常复杂的BVH,这就非常难以计算。
而Ada Lovelace架构的处理方式就不一样,通过Displaced Micro-Mesh引擎,它将这些三角形平面仅通过一个三角形然后加上不同的位移图来表达,显著缩短了BVH的构建时间,同时BVH的存储空间需求也减小了很多,而最终仍然能实现一样的光线追踪最终渲染效果。
实际应用中由于Displaced Micro-Mesh引擎的存在,面对复杂物体的渲染,BVH的构建速度可以超过15倍,而存储空间的需求却可以小20倍之多,越是复杂的物体该引擎的优势就越能体现。
而且Displaced Micro-Mesh引擎不止可以应用在游戏领域,对于创作领域的用户来说,也有软件会支持,目前Adobe、Simplygon这两家企业已经确认得到了支持。
Opacity Micro-Map引擎
接下来我们说Opacity Micro-Map引擎。
Opacity Micro-Map引擎则是可以对游戏中常见的树叶这类物体加速光线追踪计算,Ampere架构面对这种场景的Alpha-Test需要多个着色器来进行计算,而Opacity Micro-Map引擎对于这种不透明的对象进行了不透明度的编码,可以更准确的对物体边缘进行光线追踪计算,简化了叶子轮廓之外完全透明和叶子轮廓之内完全不透明的区域的计算,耗费更少的着色器就可以实现真实的光线追踪渲染。
以《传送门》RTX版这个游戏为例,Opacity Micro-Map引擎可以让Gbuffer填充速度加快30%,游戏帧率提高10%。
而最终,这些改进下的第三代RT Core可以使完整的Ada Lovelace架构核心具有200 TFLOPS的有效光线追踪计算能力,几乎是上代产品的三倍。
第四代Tensor核心性能超上代5倍
对于第四代Tensor Core,最主要的变化是新增了Hopper FP8 Transformer Engine,可提供1400 TFLOPS的张量处理性能,可以说深度学习性能得到了巨大的飞跃,这也意味着通过它可以实现新的技术想法,后面的DLSS 3我们会再次提到Tensor Core的功劳。
说到DLSS 3,作为这次NVIDIA大力宣传的重点,相信大家都急不可耐想深入的了解这个技术,但是为了更清楚的了解DLSS 3,我们还得说两个新东西,那就是着色器执行重排序(SER)和Optical Flow Accelerator光流加速器。
着色器执行重排序(SER)提高光追并行效率
着色器执行重排序技术的重大作用是可以极大的提升光线追踪性能,这是与CPU的乱序执行一样的重大创新。
由于光线追踪的特性,它很难并行处理,因为光线会向各个方向反射,并与各种类型的表面相交,所以光线追踪的工作负载需要不同的线程处理,需要不同的着色器,并且需要不同的显存来存取中间的计算过程。
而我们知道GPU的特点就是适合并行处理,只有面对并行处理的任务才可以发挥GPU的特点获得更好的计算效率,而着色器执行重排序就是可以通过实时重新调度任务,即时重新安排着色器负载来提高执行效率,从而更好地利用GPU资源,以实现更佳的光线追踪性能,据称,SER可以为光线追踪带来最高可达3倍的性能提升,整体游戏性能提升可高达25%。
应用了着色器执行重排序(SER)之后,《赛博朋克2077》在全景光线追踪模式下可以提高44%的性能,《传送门》RTX版可以提高29%的性能,《Racer RTX》可以提高20%的性能。
Ada光流加速器算力可超300 TFLOPS
回看前面的完整核心图,可以看到左上角清晰的标出了Optical Flow Accelerator,也就是光流加速器,而尽管之前的Ampere架构中没有提到这个东西,但其实Ampere架构也是有的,不同的是,Ada Lovelace架构中大大增加了光流加速器的运算性能,从之前Ampere架构的126 TFLOPS增加到现在的300 TFLOPS(详细值是305 TFLOPS)。
Ada的光流加速器带来的巨大的性能提升,具有更广泛的实用性了,使DLSS 3能够更准确预测场景中的运动,使神经网络能够在保持图像质量的同时提高帧率。前面提到的第四代Tensor Core的1400 TFLOPS的张量处理性能,加上这里Ada Lovelace光流加速器300 TFLOPS的光流运算性能,再加上后方的NVIDIA超级计算机提供的超过1 ExaFLOPS的AI计算性能,这三者就组成了这一代DLSS 3的硬件层面的保障,而前面讲了那么多基础性的东西,现在我们终于可以讲到通过这些东西能实现的直接与玩家接触的技术——DLSS 3。
DLSS 3全方位提升流畅度、延迟和画质
新一代的DLSS 3包括全新的帧生成技术、DLSS 2超分辨率技术和NVIDIA Reflex技术,与之对应的就是目前在游戏中,DLSS 3对应了这三个选项——帧生成技术、DLSS 2超分辨率技术和NVIDIA Reflex技术——这三个都启用才算是完整的开启了DLSS 3。
而这其中,帧生成必须RTX 40系列才能支持,超分辨率则是RTX 40/30/20系列都支持,Reflex的要求最低——GTX 900系列及以后的都支持。
总得来说,DLSS 3是提升游戏体验的一整套解决方案,也就是说对于游戏体验的三要素——流畅度、延迟和画质——进行全方位的提升,而不是拆东墙补西墙的那种,接下来我们一个一个说。
DLSS 3的帧率
先说它如何提升帧率。
之前的DLSS 2,提升帧率的方式简单说就是以低分辨率渲染,然后通过AI训练重建高分辨率画面返回输出,比如我们将游戏设置成4K,打开DLSS,那么实际的计算过程是先以1080p分辨率渲染帧画面,然后AI学习经过训练的更高分辨率的帧再将这个帧画面压缩到4K最终输出,中间相差的这3/4部分的像素信息是通过AI计算来添加的(本地主要是Tensor Core来计算)。由于以低分辨率渲染,所以在AI补充像素的性能足够的情况下,帧率自然可以提高了。
但是这样无法突破CPU性能的瓶颈,毕竟降低原始渲染分辨率可以使得GPU每一帧的计算量更少,但是CPU每一帧的计算量是不变化的(因为CPU负责计算的部分与分辨率并无关系),实际上,由于帧率提高,CPU的计算量其实还增大了。
那么DLSS 3是怎么做的呢?
首先,还是与DLSS 2一样,比如输出4K游戏画面的话,它也是先降低原始渲染分辨率到1080p,然后通过AI计算来添加像素再压缩成4K画面。在连续的游戏画面中,我们就可以通过这样得到连续的4K帧画面,第1帧、第2帧、第3帧等等。
然后这样的每两帧之间,DLSS 3通过光流加速器为神经网络提供像素级的帧到帧的运动方向和速度信息,然后通过分析前一帧和当前帧几何图形和像素的运动矢量并将其输入至神经网络,就能计算出两帧中间的帧画面了。
实现超越CPU限制的帧数
这样连续下去的话,原本的第1帧、第2帧、第3帧中间都会有一个新的帧,等于实际最终输出的帧画面中,有1/2是没有CPU参与的,完全是GPU计算出来的,所以理论上可以将原本受限于CPU性能的游戏帧率提高一倍。
另外,我们去关注像素的话,会发现靠传统渲染方式计算的像素其实只有1/8,最终输出的游戏画面7/8的像素其实都是通过DLSS 3的一系列AI计算填补上的,这极大的提升了效率。
DLSS 3的画质
然后我们说下画质。
其实看我们的网站的网友评论可以看到还是有很多网友对DLSS技术很抗拒,认为不是原始渲染出的画面就不好,笔者认为这一观念是需要改变了。且不说网友有这一观念可能是由于初代DLSS技术确实效果不佳,形成了刻板印象,即便之后的DLSS 2超分辨率技术已经有很好的画面也很难摒弃已经形成的观念,对于现在的DLSS技术其实我们可以比较一下这几帧画面,已经完全看不出区别。
对于DLSS 3的生成帧这方面大家不免想到已经问世好久的各种插帧技术,DLSS 3的生成帧确实也可以算作插帧的一种,但是又与其他的插帧技术完全不一样。
简单的插帧技术利用两帧之间像素的位移来确定中间帧的图像,这样其实非常容易出现明显令人觉得视觉异常的画面,特别是对于阴影这种需要计算的画面效果,当主体移动之后,正确的阴影是需要经过复杂计算的,单单根据像素的位移来确定的画面几乎肯定违反客观世界的物理规律。
而DLSS 3它使用光流加速器分析两帧连续的游戏图像,计算帧到帧之间物体、元素的运动矢量数据,综合游戏中的一对超级分辨率帧,以及引擎和光流运动矢量,并将其输入至卷积神经网络,计算生成出新的一帧,大大提高了画面的准确性。
DLSS 3的延迟
最后我们再说延迟。
通过前面的梳理大家会发现DLSS 3尽管提高了帧速率,也保证了画质,但是对于延迟是没有缩短的,因为每一个新生成的帧都是需要后一帧渲染出来之后才可以准确生成的。更高的帧率提升了游戏的顺滑程度,但延迟会影响游戏的响应度,如果延迟太高,游戏的体验也不会好,而为此,DLSS 3也集成了NVIDIA Reflex技术来降低延迟提高响应速度。
所以总得来说,DLSS 3是包括了基于AI的超分辨率提升技术、基于AI的帧生成技术以及NVIDIA Reflex低延迟技术这些软件层面以及第四代Tensor Core的1400 TFLOPS的张量处理性能、Ada Lovelace光流加速器300 TFLOPS的光流运算性能以及NVIDIA超级计算机提供的超过1 ExaFLOPS的AI计算性能组成的硬件层面综合实现的一项新技术,对于游戏体验的提升也不是单方面的,而是全方位的提升。
全新第八代NVENC支持AV1编码和双编码器
Ada Lovelace架构相比Ampere架构的另一项重要升级就是NVIDIA 编码器 (NVENC)升级到了第八代,开始支持AV1编码了。AV1的效率比H.264高40%,这意味着在传输同样质量的画面时候只需要大约70%的数据量,或者说在同样的带宽下可以实现更清晰的画面质量,并且由于AV1是免费、开放的,可以让厂商节省相当一笔费用,AV1已经明显将要取代H.264成为主流格式。
而在中国的备受欢迎的视频编辑应用“剪映专业版”、Blackmagic Design 的 DaVinci Resolve 18、以及 Adobe Premiere Pro 较为流行的 Voukoder 插件均支持 AV1,且均可通过编码预设使用NVENC AV1编码器。此外,OBS、Discord以及更多的公司都已在采用NVENC AV1编码器。
首发的RTX 4090给开放了两个NVENC编码器,这两个NVENC可实现协同工作,并自动分配以实现双路输出。全新的双编码器可将视频导出时间缩短至原来的一半,未来,主播用户可借助第八代编码器中 AV1 双编码器的优势提升直播体验,还可以通过OBS Studio 录制高达 8K60 的内容。
RTX 4080公版显卡产品解析
RTX 4080公版显卡规格
接下来我们具体看下RTX 4080的规格。RTX 4080换用了全新的AD103核心,而且与RTX 4090类似的是,RTX 4080的AD103核心也不是完整的。完整的AD103核心一共具有7组GPC,其中6组GPC是一样的,每个含有6个TPC,最后的一组GPC则是仅仅含有4组TPC,故而完整的AD103核心一共含有正好40组TPC。而RTX 4080 GPU则是将其中2组完整的GPC各阉割了1组TPC,故而一共剩下38组TPC。
上一代的RTX 3080 Ti相比RTX 3090/3090 Ti其实核心规模相差不大,RTX 3080 Ti相比RTX 3090只是砍去了一组TPC,相比终极规模的RTX 3090 Ti也只是少了两组TPC,但是到了RTX 4080,情况就大不一样了。
RTX 4080相比RTX 4090的差距还是非常大的。前面说了RTX 4080一共剩下38组TPC,相比RTX 4090的64组可谓是大大减少,而由于Ada Lovelace和Ampere的层级结构是相同的,所以38组TPC的RTX 4080与40组TPC的RTX 3080 Ti相比,不管是SM单元数量还是CUDA单元数量都相应的其实都减少了。
但是可以看到RTX 4080的晶体管数目相比RTX 3080 Ti还是大幅增加的,这主要是由于两者的SM单元已经不可同日而语,RTX 4080的SM单元中RT Core光追核心从之前的第二代升级到第三代,Tensor Core张量核心也从第三代升级到第四代,此外,还有L2缓存的区别,RTX 4080相比RTX 3080 Ti可谓是火箭式的提升,从6144 KB提升到了65536 KB,是RTX 3080 Ti的十倍之多。
RTX 4080核心图
除了规模之外,影响最终性能的还有一个重要部分是核心频率,这方面RTX 4080相比RTX 3080 Ti也是一次大的跨越,从RTX 3080 Ti的1665MHz的Boost频率提高到了2505MHz,仅仅是如此大幅的频率提升,就让我们已经可以预计RTX 4080的性能将相比RTX 3080 Ti提升不少。
显存方面这次RTX 4080也有亮点,RTX 4080用上了目前最高显存频率的显存——频率达到了11200MHz,故而其显存数据速率也创下新高,达到了22.4Gbps。不过,由于显存位宽的缩小,实际RTX 4080的显存带宽反而不及RTX 3080 Ti,仅为716.8 GB/s。
显存容量方面,为了面向未来几年的游戏环境更加游刃有余,RTX 4080的显存容量相比RTX 3080 Ti也是增大了的,现在具有16GB的显存容量,同样是GDDR6X显存。
完整的AD103核心图
其他方面升级的还有编码器,从RTX 3080 Ti所属的Ampere架构的第七代NVIDIA Encoder升级到了全新的第八代编码器,而解码器则没有改变,同样为第五代NVIDIA 解码器,数量方面,第八代编码器RTX 4080配置了两个,而解码器则配置了一个,编解码器与RTX 4090的规模是一样的。
关于编解码器有一点再多说一下,不管是RTX 4090所用的完整的AD102核心图,还是RTX 4080所用的完整的AD103核心图,都可以看到完整的核心图都是具有3个编码器和3个解码器的配置的,作为游戏方向的GeForce系列可以说是做了删减的,毕竟对于非重度的编解码场景来说,删减后的规模也是绰绰有余的,而完整的3+3的规模笔者猜测也许是Quadro系列上可以看到。
RTX 4080公版卡设计
NVIDIA RTX 4080 Founder Edition显卡采用了和RTX 4090公版卡一样的包装,将一个长方体做对称的切割,打开方式是向上翻开,翻开后NVIDIA RTX 4080 Founder Edition显卡就以45度角垂直于平面的样子展示在眼前,而向上翻开的包装盒部分可以直接翻到后方,整个包装盒由于对称性可以形成一个规则的三棱柱。
包装盒背面可以看到NVIDIA RTX 4080 Founder Edition显卡的一些规格信息,这里注明该卡尺寸为304×137×61mm,这与RTX 4090公版卡是一样的,也就是说再散热器的体积方面,两者用的是一样的,而既然这个规模的散热器可以轻松压制住RTX 4090,那么对于RTX 4080更是不在话下,可以预计RTX 4080的温度表现应该会更好(如果风扇策略是一样的话)。
RTX 4080最低需要750W的系统电源,相比RTX 4090少了很多,毕竟RTX 4080的TGP也是少了很多的,仅为320W。此外,包装上还写明RTX 4080的辅助电源接口是一个450W的16-Pin第五代PCIE供电接口或者3个传统的PCIE 8pin接口(包装盒中有转接线)。
NVIDIA RTX 4080 Founder Edition显卡的整体外观风格延续了上代的设计,不过还是可以明显的看到不同——显卡钛灰色的边缘出现了曲线。这是由于这一代的风扇尺寸增大了,所以与边缘相交了,于是这一代钛灰色的边缘需要留出空间容纳这更大尺寸的风扇。至于为什么风扇增大,显然是为了更好的散热效果,据称这一代的风扇可以多提供20%的风量(同噪音下可以多提供15%的风量)。
另外,或许是为了呼应这里的流线型设计,NVIDIA RTX 4080 Founder Edition显卡的周边一侧现在也进行了流线型设计,是向内凹陷的那一种曲面,与上一代对比的话就会明显看出来。此外,还可以明显的看到NVIDIA RTX 4080 Founder Edition显卡相比上一代厚了很多。
对于生产力系统来说,显卡也就是加速卡,NVIDIA RTX 4080 Founder Edition显卡尾端仍然有螺丝孔用来在工作站等环境中安装显卡支架,不过与上一代外露的设计相比,这一代特别设计了一个磁吸式的挡片来遮盖住,很有特点。
NVIDIA RTX 4080 Founder Edition显卡重量来到了2.121kg,与此前我们测的RTX 4090公版卡的2.187kg极为接近,这几乎验证了两者的散热器完全是一模一样的规模,不仅散热器的体积规格一样,而且其中的热管数量与直径规格应该也是一样的,而少掉的66g重量主要可能就是供电部分以及显存颗粒部分少掉的重量。
NVIDIA RTX 4080 Founder Edition显卡延续了上一代的双轴流推挽式风扇散热设计——正面有一个轴流式风扇,虽然是轴流式风扇,但是经过特殊的风道设计,这个轴流式风扇吸入冷风之后是会将废热通过档板那里排出机箱之外,另一个风扇是在显卡背面,通过抽风让冷空气流经散热鳍片,然后通过机箱的后置排风扇排出机箱之外,通过这种方式能更好的将废热定向的引导到机箱风扇的风道,避免了机箱风道的凌乱。
NVIDIA RTX 4080 Founder Edition显卡仍然提供四个视频输出接口,包括三个DisplayPort 1.4a和一个HDMI 2.1接口,均可实现最高4K 120Hz的视频输出,并可实现最多4屏输出,支持HDCP 2.3,HDMI 2.1接口还支持8K 60Hz HDR以及HDMI 2.1a 接口的可变刷新率功能。
RTX 4080公版卡拆解
英伟达公版卡的PCB一直是设计典范,在容纳所有必须的电子元器件的同时仍然保持极小的尺寸,这非常考量设计技巧,RTX 4080的PCB右侧仍然采用了缺口的设计,这样可以保证容纳了穿透式风流设计的风扇后仍然将整卡的尺寸控制的尽量短,保证较好的兼容性。
PCB的正中心就是RTX 4080的AD103-300 CPU核心,周围有8颗显存颗粒围绕,均是美光的GDDR6X显存,单颗2GB容量,32-bit位宽,8颗一共组成16GB 256-bit的显存规格。
再往远一点的周围就是一共16相对供电设计,供电部分的mosFET均是芯源系统(MPS) 的MP86957,供电控制方面主要是1颗芯源系统(MPS) 的MP2891来负责。
在核心规模相比RTX 4090大幅减少的情况下,可以看到RTX 4080的供电需求也是相应降低了不少,而尽管RTX 4080公版卡的PCB上有不少空焊位,让人很容易以为它与RTX 4090公版卡使用的是同一块PCB设计,但是如果仔细对比的话,会发现并不是这样。
再看散热器部分,RTX 4080公版卡仍然采用了真空腔均热板设计,可以非常高效的将GPU核心的热量传导到热管然后分散到散热鳍片上,具有6根8mm直径的热管,这些热管上面均覆盖有镀层,可以防止日久使用之后表面发生氧化,镀层是黑色的也与整体的色调设计搭配,让显卡更好看。
性能测试
测试平台
本次首发评测对比显卡包括了:GeForce RTX 4090、GeForce RTX 3080 Ti和AMD阵营的Radeon RX 6950 XT,除了Radeon RX 6950 XT没有弄到公版卡用了一张技嘉Radeon RX 6950 XT GAMING OC 16G代替之外,其他都是FE公版卡。操作系统为最新的Microsoft Windows 11 22H2 64-bit版,系统的电源选项为高性能模式,在BIOS开启XMP,让内存运行在6000的频率,其他方面不做过多改变,均采用默认设置。
基准性能测试
我们以3DMark作为显卡基准性能测试,测试项目包括Fire Strike、Fire Strike Extreme、Fire Strike Ultra、Time Spy、Time Spy Extreme、Port Royal以及Speed Way七个项目。其中Fire Strike、Fire Strike Extreme、Fire Strike Ultra三个项目分别测试的是显卡在DX11游戏中的1080p分辨率、2K分辨率和4K分辨率下的性能指数,Time Spy、Time Spy Extreme两个项目则是显卡在DX12游戏中的2K分辨率和4K分辨率下的性能指数,Port Royal和Speed Way是测试的显卡实时光线追踪的性能指数,具体成绩见下表,表中所列成绩均为3DMark显卡单项的得分。
RTX 4080这种性能级别的显卡主要是面向4K以及光线追踪游戏环境的解决方案,故而我们主要关注Fire Strike Ultra、Time Spy Extreme、Port Royal和Speed Way这几个项目的成绩。并且FireStrike项目对于在这样性能级别的显卡来说,CPU部分已经出现瓶颈,虽然确实可以反映当下实际游戏中不同显卡的帧数差异,但是由于没有完全发挥顶级显卡的性能,不建议作为判断显卡性能的参考。
可以看到在代表DX11游戏中4K分辨率的Fire Strike Ultra项目中,RTX 4080相比RTX 3080 Ti提升高达40%,是RTX 4090的68%,比RX 6950 XT高出15%。而在代表DX12游戏中4K分辨率的Time Spy Extreme项目中,RTX 4080相比RTX 3080 Ti提升高达42%,是RTX 4090的71%,比RX 6950 XT高出33%。
而光追方面,除了RX 6950 XT的相对性能变化较大之外,其他三张卡的情况与前面的传统光栅化下差不多。在Port Royal项目中,RTX 4080相比RTX 3080 Ti提升高达36%,是RTX 4090的68%,比RX 6950 XT高出67%。而在Speed Way项目中,RTX 4080相比RTX 3080 Ti提升高达36%,是RTX 4090的71%,比RX 6950 XT高出84%。
4K分辨率游戏实测
由于本次新加入的DLSS 3是提高帧率、降低延迟同时还保持高画质水准的全方位解决方案,这也让我们在不同设置下进行对比成为了合理选择,即我们回到影响游戏体验的三大要素(流畅度、延迟和画质)这个本源上来,通过综合的游戏体验来判断提升。
故而本次的游戏实测主要分为三个部分,分别是DLSS 3开启和关闭的性能对比,这个主要是测试DLSS 3;RTX 4080+DLSS 3对比RTX 3080 Ti+DLSS 2,这个是来看看RTX 4080和RTX 3080 Ti各自在自己软硬件结合下的最优游戏体验相差多少;最后就是较为传统的同设置下的平均帧对比。所测游戏或者DEMO可以调节画质的,均采用最高画质。
DLSS 3开启和关闭的性能对比
我们先来看看DLSS 3开启和关闭的画质对比,这里列出部分测试游戏的实机截图对比。
DLSS 3 OFFDLSS 3 OFFDLSS 3 ONDLSS 3 ON
DLSS 3 OFFDLSS 3 OFFDLSS 3 ONDLSS 3 ON
DLSS 3 OFFDLSS 3 OFFDLSS 3 ONDLSS 3 ON
大家应该可以直观的看到,DLSS 3的开启不但没有降低画质,而且提升了画质,而这正是我们跨画质对比的理由,在画质提升的情况下,平均帧、1%最低帧和系统延迟的对比到底如何呢?
在最高画质的《赛博朋克2077》中,与关闭相比,开启的游戏平均帧是后者的3.86倍,1%最低帧是后者的2.6倍,而系统延迟只有后者的36%。
在最高画质的《瘟疫传说:安魂曲》中,与关闭相比,开启的游戏平均帧是后者的2.46倍,1%最低帧是后者的3.32倍,而系统延迟只有后者的65%。
在最高画质的《F1 2022》中,与关闭相比,开启的游戏平均帧是后者的2.55倍,1%最低帧是后者的2.78倍,而系统延迟只有后者的77%。
在最高画质的《超级突破》中,与关闭相比,开启的游戏平均帧是后者的1.9倍,1%最低帧是后者的3.03倍,而系统延迟只有后者的62%。
在最高画质的《毁灭吧全人类》中,与关闭相比,开启的游戏平均帧是后者的1.72倍,1%最低帧是后者的1.34倍,而系统延迟只有后者的83%。
在最高画质的《Tower of Fantasy》PC版中,与关闭相比,开启的游戏平均帧是后者的3.32倍,1%最低帧是后者的2.4倍,而系统延迟只有后者的35%。
在最高画质的《Unity Enemies》DEMO中,与关闭相比,开启的游戏平均帧是后者的3.57倍,1%最低帧是后者的3.88倍,而系统延迟只有后者的27%。
在4K的《3DMark DLSS Feature Test》中,与关闭相比,开启的游戏平均帧是后者的3.31倍,1%最低帧是后者的3.85倍,系统延迟这里目前无法读出数据。
RTX 4080+DLSS 3对比RTX 3080 Ti+DLSS 2
这里同样,我们先来看看RTX 4080+DLSS 3对比RTX 3080 Ti+DLSS 2的画质,这里列出部分测试游戏的实机截图对比。
DLSS 2DLSS 2DLSS 3DLSS 3
DLSS 2DLSS 2DLSS 3DLSS 3
DLSS 2DLSS 2DLSS 3DLSS 3
这里可以看到DLSS 2和DLSS 3的画面是看不出什么区别的,这也是我们继续对比平均帧、1%最低帧和系统延迟的理由,因为这就是同画质的游戏对比。
那么接着我们看看平均帧、1%最低帧和系统延迟的对比,结果如下:
在最高画质的《赛博朋克2077》中,与RTX 3080 Ti相比,RTX 4080的游戏平均帧是后者的2倍,1%最低帧是后者的1.36倍,而系统延迟只有后者的69%。
在最高画质的《瘟疫传说:安魂曲》中,与RTX 3080 Ti相比,RTX 4080的游戏平均帧是后者的1.72倍,1%最低帧是后者的2.13倍,系统延迟这里算是几乎相同,相差1ms可以算作测试误差。
在最高画质的《F1 2022》中,与RTX 3080 Ti相比,RTX 4080的游戏平均帧是后者的1.46倍,1%最低帧是后者的1.63倍,系统延迟这里RTX 4080+DLSS 3的倒是更高一些,是后者的137%。
在最高画质的《毁灭吧全人类》中,与RTX 3080 Ti相比,RTX 4080的游戏平均帧是后者的1.16倍,1%最低帧两者相同,系统延迟这里RTX 3080 Ti+DLSS 2的没有测出来。
在最高画质的《Tower of Fantasy》中,与RTX 3080 Ti相比,RTX 4080的游戏平均帧是后者的1.68倍,1%最低帧是后者的2.32倍,系统延迟这里RTX 3080 Ti+DLSS 2的没有测出来。
在最高画质的《Unity Enemies》DEMO中,与RTX 3080 Ti相比,RTX 4080的游戏平均帧是后者的2.27倍,1%最低帧是后者的2.27倍,系统延迟这里RTX 3080 Ti+DLSS 2的没有测出来。
在4K的《3DMark DLSS Feature Test》中,与RTX 3080 Ti相比,RTX 4080的游戏平均帧是后者的1.76倍,1%最低帧是后者的1.82倍,系统延迟这里目前无法读出数据。
实时光追游戏测试
这部分除了采用最高画质之外,不开启DLSS,好让RX 6950 XT也能勉强参与对比。
这里测试的都是游戏的已发行版本,从8款游戏的综合结果来看,在光追游戏方面RTX 4080相比RTX 3080 Ti提升为36.86%,是RTX 4090的70.74%,相比RX 6950 XT提升为76.11%。
而其中《孤岛惊魂6》和《尘埃5》这两款游戏的光追计算压力其实是较小的,接近于传统光栅化的场景,所以这里也可以看出来RTX 4080的传统光栅化的游戏能力表现不俗,可以远超目前AMD这边的旗舰型号。而光追游戏随着光追压力的不同相比RTX 3080 Ti的提升幅度也不尽相同,最大在《边境》中提升超过43%。
AV1编码测试
与RTX 4090一样,RTX 4080的另一项重要升级就是NVIDIA 编码器 (NVENC)升级到了第八代,开始支持AV1编码了,并且给开放了两个NVENC编码器,这两个NVENC可实现协同工作,并自动分配以实现双路输出。这里笔者测试了在中国的备受欢迎的视频编辑应用“剪映专业版”和Blackmagic Design 的 DaVinci Resolve 18通过编码预设使用NVENC AV1编码器的输出耗时。由于RTX 3080 Ti和RX 6950 XT不支持AV1编码,所以这里用Intel的A770来进行AV1编码对比。
AV1编码测试可以看到RTX 4080和RTX 4090是统一水平,两者是相同的(DaVinci 中2s内的差距算是测试误差),凭借着双编码器,无论是RTX 4080还是RTX 4090相比Arc A770都有大幅的领先,剪映中的耗时更是只需Arc A770四成的耗时。
温度测试
我们的GPU散热测试均在裸机状态(如果安装在机箱内,GPU温度会高出5℃左右)下进行测试,测试环境温度约为24.6℃。待机温度是开机以后记录10分钟,满载温度则是完成3DMark压力测试后记录下,数据通过GPU-Z的Log to File功能记录,以下为温度测试曲线。
RTX 4080公版卡支持风扇待机停转,所以待机温度都是被动散热下的温度,经过十分钟的待机测试,从开始的30.6摄氏度上升到35.1摄氏度左右,10分钟待机过程中最热点温度则是最低是开始的39.3摄氏度,偏后段是43.9摄氏度。
满载状态下,最高温度居然仅仅62.1摄氏度,果然相比RTX 4090清凉的67.1摄氏度还要更低。关注最热点温度的话,最高也才73摄氏度,比RTX 4090的75.5摄氏度最高热点温度也是更低的,RTX 4080的这个散热器对于这个核心本身的发热来说太绰绰有余了。
噪音测试
噪音方面,噪音测试在我们的消音室中完成,测试过程中噪音最低可以达到16.3dBA,能很好的测试出样品的真实噪音水平。测试的状态为显卡散热风扇在3DMark压力测试中同转速运转的状态,可以视为实际游戏负载下的噪音状态,噪音仪距离声源处距离为50cm,经测试,该卡此状态下运转的噪音值为33.8dBA,这个噪音水平是非常之低的,相比噪音表现出众的RTX 4090公版卡还要更低。
功耗测试
通过我们手中的PCAT套件,可以分别精确地测量显卡PCI-E、外接电源接口瓦特数,显卡最大功耗在3DMark压力测试中获得,待机功耗则是在进入系统后记录1分钟取平均值。
统计功耗测试的结果算出,这张RTX 4080公版卡的整卡待机功耗平均为18W,满载功耗平均为314W,峰值功耗到过337W。对于这样级别的显卡功耗来说,电源的话如果平台其他部件的功耗不高那么可以750W的电源来带动,如果其他部件的功耗也较高建议至少850W的电源起步。
总结
RTX 4080与RTX 4090之间的性能跨度说起来还是很大的,他们之间完全可以再插入两个型号,而尽管如此,RTX 4080相比上一代的RTX 3080 Ti仍然有很大幅度的性能提升,即便是不启用DLSS的光追游戏性能也相比后者提升超过36%,对于高端显卡来说,仍然算是达到了代际提升的幅度。
而其实RTX 4080的游戏性能相比上一代的RTX 3080 Ti的提升不止如此,因为RTX 4080还具有DLSS 3技术的支持,在RTX 4080+DLSS 3对比RTX 3080 Ti+DLSS 2的测试下我们可以看到,在新技术的加持下,多数游戏都可以具有超过50%的提升,比如在最高画质的《赛博朋克2077》中,平均帧是后者的2倍,在最高画质的《Unity Enemies》DEMO中,平均帧是后者的2.27倍。
显卡迷你天梯榜 (完整显卡天梯榜)
而DLSS 3并不是镜花水月,自从RTX 4090发布以来,已经陆续有多款游戏开始支持DLSS 3,并且在RTX 4080发布的今天将继续有多款新游戏加入支持DLSS 3的阵容,目前已达10款游戏,并且在本月底之前还有多款游戏将相继加入,DLSS 3游戏阵容的扩展非常之快。
不过,对于预算充足的玩家来说,如果你能负担的起RTX 4090的话,笔者还是建议购买RTX 4090这款型号,这并不是说RTX 4080的定价有问题,考虑到RTX 4080相比RTX 3080 Ti的巨大提升,9499元的定价是可以接受的,只是相比较而来,只会觉得12999元的RTX 4090更加划算。当然,如果你的预算刚好卡在9000元左右,那么RTX 4080作为一张同样能体验DLSS 3黑科技而售价更便宜的显卡也是非常不错的选择。