上月中旬的时候,NVIDIA一口气地发布了主流的RTX 4060全系列,包括RTX 4060 Ti 8GB,RTX 4060 Ti 16GB和RTX 4060。虽说它们是同时间公布,但它们的性能细节和发售日期却是分了个先后。而在RTX 4060 Ti 8GB打头阵之后,紧接着的就是价格更为亲民的RTX 4060。说起来,RTX 4060本来是预定7月才发售的,想不到这次NVIDIA居然反向跳票,在6月的末尾为玩家们带来了这张显卡。可能也是考虑到了不少玩家刚经历完高考,需要好好地打几把游戏吧!
跟RTX 4060 Ti不同,本次RTX 4060并没有Founder's Edition,所以我们这次评测的是影驰的RTX 4060金属大师,不过它是公版规格,并没有超频。
规格:AD107核心
相比于早前公布的RTX 4060 Ti,RTX 4060在各方面的参数都有所下降。它的核心代号为AD107,共有3072个流处理器,96个第四代Tensor Core和24个第三代RT Core,Boost频率达到2460MHz。而显存大部分参数则和RTX 4060 Ti一致,是8GB GDDR6 128bit,不过速率降到了17Gbps,也就是2125MHz的显存频率。另外,它也是拥有Ada Lovelace架构特有的大L2缓存,为24MB,比RTX 4060 Ti的32MB略小,但与RTX 3060相比的话就大上许多了,这也是RTX 4060支持DLSS帧生成功能的关键。
功耗方面,RTX 4060的TGP降到了115W,比RTX 3060,RTX 2060都要低上不少。NVIDIA表示,对于重度游戏玩家来说,RTX 4060是确实可以帮他们省下不少电费的。推荐电源的话是550W,其实从我们后面的实际测试中可知道,还可以再低一点。
大多数RTX 4060都采用了常规的PCIe 8-pin接口,无需转接线,对于绝大部分的台式机来说也是十分友好的。
Ada Lovelace架构解析 SM架构图
AD107
到了SM单元里面,会发现其整体的结构也是与上一代Ampere架构一模一样,分为四个一样的主要计算模块,一个RT光追核心,以及128KB一级数据缓存/共享内存等。每个主要的计算模块内的结构也和Ampere架构一样,有64KB寄存器文件、零级指令缓存、一个Warp调度器、一个分配单元、16个FP32单精度浮点CUDA核心、16个FP32/INT32单精度浮点和整数混合CUDA核心、一个Tensor Core张量核心、四个载入存储单元、一个特殊功能单元(SFU)用于执行图形差值指令。
差别也很明显,那就是RT Core光追核心从之前的第二代升级到第三代,Tensor Core张量核心也从第三代升级到第四代。
第三代RT Core有效光追算力是上代3倍
全新的第三代RT Core可以提供2倍的光线与三角形求交性能,并且加入了两个全新的重要硬件单元,即Opacity Micro-Map引擎和Displaced Micro-Mesh引擎。
Opacity Micro-Map引擎将光线追踪的Alpha-Test几何性能提升2倍;而全新的Displaced Micro-Mesh引擎可动态生成微网格,以产生额外的几何图形。Displaced Micro-Mesh引擎可在提升几何图形丰富度的同时,不以传统复杂几何图形处理的性能和存储成本为代价。
Displaced Micro-Mesh引擎
光线追踪的计算是以光线射向一个平面这样的模型来计算的,而实际的渲染中物体几乎不会是简单的平面型,而是各种曲面,所以就需要将曲面分解成许多个小的三角形平面,然后计算光线与三角形求交。在Ampere架构上,面对一个复杂的曲面,如果想得到逼真的光线追踪效果,那么分解的三角形平面是非常多的,多个三角形平面带来非常复杂的BVH,这就非常难以计算。
Ada Lovelace架构的处理方式就不一样,通过Displaced Micro-Mesh引擎,它将这些三角形平面仅通过一个三角形然后加上不同的位移图来表达,显著缩短了BVH的构建时间,同时BVH的存储空间需求也减小了很多,而最终仍然能实现一样的光线追踪最终渲染效果。
实际应用中由于Displaced Micro-Mesh引擎的存在,面对复杂物体的渲染,BVH的构建速度可以超过15倍,而存储空间的需求却可以小20倍之多,越是复杂的物体该引擎的优势就越能体现。
而且Displaced Micro-Mesh引擎不止可以应用在游戏领域,对于创作领域的用户来说,也有软件会支持,目前Adobe、Simplygon这两家企业已经确认得到了支持。
Opacity Micro-Map引擎
Opacity Micro-Map引擎则是可以对游戏中常见的树叶这类物体加速光线追踪计算,Ampere架构面对这种场景的Alpha-Test需要多个着色器来进行计算,而Opacity Micro-Map引擎对于这种不透明的对象进行了不透明度的编码,可以更准确的对物体边缘进行光线追踪计算,简化了叶子轮廓之外完全透明和叶子轮廓之内完全不透明的区域的计算,耗费更少的着色器就可以实现真实的光线追踪渲染。
以《传送门》RTX版这个游戏为例,Opacity Micro-Map引擎可以让Gbuffer填充速度加快30%,游戏帧率提高10%。
在这些改进下,第三代RT Core可以使完整的Ada Lovelace架构核心具有200 TFLOPS的有效光线追踪计算能力,几乎是上代产品的三倍。
第四代Tensor核心性能超上代5倍
第四代Tensor Core最主要的变化是新增了Hopper FP8 Transformer Engine,可提供1400 TFLOPS的张量处理性能,可以说深度学习性能得到了巨大的飞跃,这也意味着通过它可以实现新的技术想法,后面的DLSS 3我们会再次提到Tensor Core的功劳。
DLSS 3作为这次NVIDIA大力宣传的重点,相信大家都急不可耐想深入的了解这个技术,但是为了更清楚的了解DLSS 3,还要先介绍两个新东西,那就是着色器执行重排序(SER)和Optical Flow Accelerator光流加速器。
着色器执行重排序(SER)提高光追并行效率
着色器执行重排序技术的重大作用是可以极大的提升光线追踪性能,这是与CPU的乱序执行一样的重大创新。
由于光线追踪的特性,它很难并行处理,因为光线会向各个方向反射,并与各种类型的表面相交,所以光线追踪的工作负载需要不同的线程处理,需要不同的着色器,并且需要不同的显存来存取中间的计算过程。
GPU的特点就是适合并行处理,只有面对并行处理的任务才可以发挥GPU的特点获得更好的计算效率,而着色器执行重排序就是可以通过实时重新调度任务,即时重新安排着色器负载来提高执行效率,从而更好地利用GPU资源,以实现更佳的光线追踪性能,据称,SER可以为光线追踪带来最高可达3倍的性能提升,整体游戏性能提升可高达25%。
应用了着色器执行重排序(SER)之后,《赛博朋克2077》在全景光线追踪模式下可以提高44%的性能,《传送门》RTX版可以提高29%的性能,《Racer RTX》可以提高20%的性能。
Ada光流加速器算力可超300 TFLOPS
回看前面的完整核心图,可以看到左上角清晰的标出了Optical Flow Accelerator,也就是光流加速器,而尽管之前的Ampere架构中没有提及,但同样也是具备的。不同的是,Ada Lovelace架构中大大增加了光流加速器的运算性能,从之前Ampere架构的126 TFLOPS增加到现在的300 TFLOPS(详细值是305 TFLOPS)。
Ada的光流加速器带来的巨大的性能提升,具有更广泛的实用性了,使DLSS 3能够更准确预测场景中的运动,使神经网络能够在保持图像质量的同时提高帧率。前面提到的第四代Tensor Core的1400 TFLOPS的张量处理性能,加上这里Ada Lovelace光流加速器300 TFLOPS的光流运算性能,再加上后方的NVIDIA超级计算机提供的超过1 ExaFLOPS的AI计算性能,这三者就组成了这一代DLSS 3的硬件层面基础。
DLSS 3全方位提升流畅度、延迟和画质
新一代的DLSS 3包括全新的帧生成技术、DLSS 2超分辨率技术和NVIDIA Reflex技术,与之对应的游戏中,这三个都启用了才算是完整地开启了DLSS 3。
其中帧生成必须RTX 40系列GPU才能支持,超分辨率则是RTX 40/30/20系列都支持,Reflex的要求最低是GTX 900系列及以后的GPU。总得来说,DLSS 3是提升游戏体验的一整套解决方案,也就是说对于游戏体验的三要素:流畅度、延迟和画质。DLSS 3是全方位的提升,而不是以拆东墙补西墙的方式。
DLSS 3的帧率
之前的DLSS 2,提升帧率的方式简单说就是以低分辨率渲染,然后通过AI训练重建高分辨率画面返回输出,比如我们将游戏设置成4K,打开DLSS,那么实际的计算过程是先以1080p分辨率渲染帧画面,然后AI学习经过训练的更高分辨率的帧再将这个帧画面压缩到4K最终输出,中间相差的这3/4部分的像素信息是通过AI计算来添加的(本地主要是Tensor Core来计算)。由于以低分辨率渲染,所以在AI补充像素的性能足够的情况下,帧率自然可以提高了。
这样的方式无法突破CPU性能的瓶颈,毕竟降低原始渲染分辨率可以使得GPU每一帧的计算量更少,但是CPU每一帧的计算量是不变化的(因为CPU负责计算的部分与分辨率并无关系)。实际上,由于帧率提高,最终CPU的计算量还增大了。
那么DLSS 3是怎么做的呢?
首先,还是与DLSS 2一样,比如输出4K游戏画面的话,它也是先降低原始渲染分辨率到1080p,然后通过AI计算来添加像素再压缩成4K画面。在连续的游戏画面中,我们就可以通过这样得到连续的4K帧画面,第1帧、第2帧、第3帧等等。
然后这样的每两帧之间,DLSS 3通过光流加速器为神经网络提供像素级的帧到帧的运动方向和速度信息,然后通过分析前一帧和当前帧几何图形和像素的运动矢量并将其输入至神经网络,就能计算出两帧中间的帧画面了。
实现超越CPU限制的帧数
这样连续下去的话,原本的第1帧、第2帧、第3帧中间都会有一个新的帧,等于实际最终输出的帧画面中,有1/2是没有CPU参与的,完全是GPU计算出来的,所以理论上可以将原本受限于CPU性能的游戏帧率提高一倍。
另外,我们去关注像素的话,会发现靠传统渲染方式计算的像素其实只有1/8,最终输出的游戏画面7/8的像素其实都是通过DLSS 3的一系列AI计算填补上的,这极大的提升了效率。
DLSS 3的画质
其实看我们的网站的网友评论可以看到,还是有很多网友对DLSS技术很抗拒,认为不是原始渲染出的画面就不好,或许这一观念是时候需要改变了。且不说网友有这一观念可能是由于初代DLSS技术确实效果不佳,形成了刻板印象,即便之后的DLSS 2超分辨率技术已经有很好的画面也很难摒弃已经形成的观念,对于现在的DLSS技术其实可以比较一下这几帧画面,已经完全看不出区别。
对于DLSS 3的生成帧这方面大家不免想到已经问世好久的各种插帧技术,DLSS 3的生成帧确实也可以算作插帧的一种,但是又与其他的插帧技术完全不一样。
简单的插帧技术利用两帧之间像素的位移来确定中间帧的图像,这样其实非常容易出现明显令人觉得视觉异常的画面,特别是对于阴影这种需要计算的画面效果,当主体移动之后,正确的阴影是需要经过复杂计算的,单单根据像素的位移来确定的画面几乎肯定违反客观世界的物理规律。
DLSS 3使用光流加速器分析两帧连续的游戏图像,计算帧到帧之间物体、元素的运动矢量数据,综合游戏中的一对超级分辨率帧,以及引擎和光流运动矢量,并将其输入至卷积神经网络,计算生成出新的一帧,大大提高了画面的准确性。
DLSS 3的延迟
通过前面的梳理大家会发现DLSS 3尽管提高了帧速率,也保证了画质,但是对于延迟是没有缩短的,因为每一个新生成的帧都是需要后一帧渲染出来之后才可以准确生成的。更高的帧率提升了游戏的顺滑程度,但延迟会影响游戏的响应度,如果延迟太高,游戏的体验也不会好,而为此,DLSS 3也集成了NVIDIA Reflex技术来降低延迟提高响应速度。
总得来说,DLSS 3是包括了基于AI的超分辨率提升技术、基于AI的帧生成技术以及NVIDIA Reflex低延迟技术这些软件层面以及第四代Tensor Core的1400 TFLOPS的张量处理性能、Ada Lovelace光流加速器300 TFLOPS的光流运算性能以及NVIDIA超级计算机提供的超过1 ExaFLOPS的AI计算性能组成的硬件层面综合实现的一项新技术,对于游戏体验的提升也不是单方面的,而是全方位的提升。
外观:尺寸小巧,质感很足
对于受机箱体积所限的,或者只是单纯喜欢小张显卡的玩家来说,影驰RTX 4060金属大师的吸引力应该会相当足够。它采用了双风扇,标准双槽不越肩设计。含挡板在内,它的长宽高为240 x 128 x 42mm。重量的话则是接近800g。附带一提,除了影驰之外,这次还有很多的RTX 4060是这种规格,玩家并不用担心选择太过单一。
跟RTX 30系的金属大师不同,影驰RTX 4060金属大师的线条变得硬朗了很多。导风罩和背板均为铝合金材质,很符合“金属大师”这一名号。显卡外壳的主体部分都经过了磨砂处理,但是在一些地方,比如风扇开口内侧,还有导风罩的四个角上的装饰,都做了抛光处理,再结合导风罩上的雕刻,影驰让显卡充满了细节之余又不会太单调。
虽然从外表上看,RTX 4060金属大师变得平直锐利了很多,但其实并不扎手,因为影驰在边缘处做了倒角处理。在这里我们确实要称赞一下RTX 4060金属大师的严丝合缝,南北两侧除了露出PCIe接口的金手指和8 pin PCIe电源接口外,其余都被包在了金属外壳里面。
接下来让我们关注一下这两个风扇,它们的直径均为92mm,扇叶数量为11片,支持智能启停功能。很容易就能看出这些扇叶表面段落分明,跟一般的风扇不一样,影驰表示它们可以提供更高的风压和更大的风量。
风扇的下方是散热鳍片,跟更高功耗的显卡不同,RTX 4060金属大师的鳍片是东西向的,也就是在挡板和尾部出风,而非两侧。透过缝隙还能看到两根热管从散热模块的中间位置伸出。
至于背板的话,影驰就做得比较简约,除了金属大师和GEFORCE RTX的标志之外就没太多装饰了。末端的镂空大约占了显卡全长的1/4,上面还印有高温提示,很是贴心。另外一点值得表扬的是,背板特意在PCB板上的测量点位做了镂空,玩家可以不拆机就能监测显卡的各项电压。某种意义上来说也算是能让主流玩家过一把名人堂系列的瘾。
拆解:双热管直触散热,5+1相供电
先从另一个角度看看RTX 4060金属大师的散热模块。可以看到它采用的是热管直触设计,两根6mm镀镍复合热管覆盖了核心和显存的一部分区域。显存和供电部分都贴上了导热贴,通过铝块传热。背板则没有导热贴,不过覆盖了绝缘贴纸。
接下来就是PCB本身,因为RTX 4060对供电的要求并不高,所以这张小巧的PCB显得还蛮空旷的,供电区域有很多空焊盘。位于中间的便是AD107-400-A1核心,出厂日期为23年15周。
四颗GDDR6显存以两颗为一组分列核心的上方和右方,型号则是大家熟悉的三星K4ZAF325BC-SC20,它也被搭载在不少RTX 4060 Ti上。该显存的单颗容量2GB,位宽为32bit,速率为20Gbps,共组成8GB GDDR6 128bit显存。正如我们之前对不少RTX 4060 Ti的评价一样,RTX 4060的显存超频幅度应该是比较大的,毕竟被限制在了17Gbps。
供电方面的配置则是5 + 1相的配置。核心PWM也是大家非常熟悉的uPI uP9512R,一款8相的PWM控制器,位于上方显存的左上角。核心供电MOSFET采用上下桥设计,一上一下,上桥是uPI QN3103M6N,下桥是uPI QN3107M6N。
核心PWM:uPI uP9512R
核心供电MOSFET:上桥uPI QN3103M6N,下桥uPI QN3107M6N
显存供电区域位于8 pin PCIe供电接口的正下方。MOSFET和核心供电一致,至于PWM比较小,位于上桥MOSFET的上方,根据丝印来看它应该是立锜科技的RT8237E,一款单相PWM控制器。
显存PWM丝印88 AC 8Y1,应是Richtek RT8237E
测试平台和对比显卡
如果一直关注我们显卡评测的读者,相信也对本次的测试平台感到非常熟悉了。酷睿i9-13900K, ROG MAXIMUS Z690 HERO加上32GB双通道DDR5-6000内存,还有额定功率1000W的电源,绝对是可以确保RTX 4060性能的充分发挥。不过话说回来,一般会选择这张显卡的玩家多半是酷睿i5或者锐龙5平台,很少会有拿酷睿i9去搭RTX 4060的情况。
至于对比显卡方面,我们首先选择了同级上一代的RTX 3060(8GB)和更上一代的RTX 2060(6GB),这是RTX 4060的主要任务目标:让拥有这些显卡的玩家有动力升级。对手的话,我们自然是选择上个月末推出的AMD Radeon RX 7600,毕竟它们拥有同样的定位,相近的价格。然后我们还选择了RTX 4060 Ti作为上位显卡,这样大家也能看出两张卡的不同定位。
基准测试
基准测试自然是经典的3DMark。其中,Fire Strike、Fire Strike Extreme和Fire Strike Ultra则是测试显卡在DX 11中,1080P、2K和4K下的表现。Time Spy和Time Spy Extreme测试的是显卡在DX 12中,2K和4K下的表现。Port Royal是针对显卡光追性能的测试。Speed Way测试的是显卡在DX 12U中的表现,包含DXR光追。
在基准测试里面可以看到RTX 4060和更上一级的RTX 4060 Ti的综合差距在25%左右。而与上一代的RTX 3060相比,RTX 4060的提升幅度达到了22%左右,和RTX 2060的差距也就拉得更开了。和同时期的RX 7600相比的话,RTX 4060和它的综合水平很是接近,差距在5%以内,但是在包含光追等新技术的测试里面,RTX 4060是表现得更好的。
游戏测试
我们有10款游戏用于光栅化游戏测试,7款游戏用于光追游戏及DLSS测试。视频设置这块还是照旧:全屏幕独占、解锁帧率、垂直同步关闭、渲染分辨率1.0、超分辨率关闭。画面设置方面,光栅化游戏的设置均为预设的最高。而光追游戏则是在此基础上把相应的光追选项打开并设置为最高品质。DLSS测试则是在光追游戏基础上将支持相应技术的游戏开启DLSS质量模式,以及帧生成功能。
然后,在这里说明一下,《赛博朋克2077》是个例外,该游戏目前的最高画面预设是包含了路径追踪技术的“光线追踪:过载”,对显卡的压力有点太大了,我们还是选择“光线追踪:超级”这个级别。
1080P分辨率 光栅化游戏测试
光追游戏测试
在1080P分辨率的光栅化游戏下面,RTX 4060与其他显卡的区别跟基准测试里面的结果差别不大。RTX 4060平均领先RTX 3060约14%,比RTX 2060快64%!和同代的RTX 4060 Ti比的话则落后25%,比对家RX 7600慢约5%。
而到了光追游戏这块就完全是RTX 4060的主场了,RTX 4060比RTX 3060强约14%,同时也把RTX 2060抛在了更后面。另外,RTX 4060的光追性能以高达30%的幅度领先RX 7600。至于和RTX 4060 Ti的差距这块,还是在25%。
2K分辨率 光栅化游戏测试
光追游戏测试
在2K分辨率光栅游戏中,RTX 4060和RTX 4060 Ti的差距都在25%左右,很是固定。而和上一代的显卡相比的话,RTX 4060的表现就更加好了,领先RTX 3060的幅度达到16%。至于2K光追游戏对于被测的所有卡来说其实都挺极限的,在这个测试里面,RTX 4060对RTX 3060的领先幅度为11%左右,比RX 7600快接近40%.
DLSS效能测试
通过DLSS效能测试我们可以看到DLSS 3不仅增加了帧率,还能把输入延迟压得比原生分辨率的时候还要低,可以说是一个没有多少debuff的功能。目前DLSS 3已经以插件形式集成到虚幻引擎5.2中,相信未来发售即支持DLSS 3功能的游戏应该会挺多的。
生产力与创作测试
AV1编码测试
作为RTX 40系显卡,RTX 4060拥有最新的第八代NVENC和第五代NVDEC,支持AV1格式视频的编码与解码,这里我们测试了Blackmagic Design 的 DaVinci Resolve 18和较为常用的Handbrake视频转码器,通过编码预设使用NVENC AV1编码器的输出耗时。
因为RTX 4060在编解码器上的配置跟RTX 4060 Ti是一致的,均是第八代NVENC和第五代NVDEC各一个,所以它们俩有着相近的性能表现,这很正常。
3D渲染测试
可以看到得益于架构的进步,RTX 4060在3D创作性能上的提升还是比较明显的,在Blender Benchmark里面平均领先RTX 3060约26%,有些测试还能胜过更高一级的RTX 3060 Ti。
AIGC性能测试
温度测试:满载温度仅在60度左右
显卡温度测试是在开放式平台上进行的,测试时的室温为26摄氏度。待机温度是在进入系统10分钟后录得,满载时的温度则是通过3DMark中的Time Spy压力测试运行10分钟后录得,记录软件为GPU-Z的Log to File功能。
得益于风扇智能启停功能,影驰RTX 4060金属大师在待机时的温度时缓慢上升的,由36.8度来到41.4度左右。而满载时,平均温度也只是平均约61.4度。而满载热点温度这块,平均温度是73度左右。表现是很优秀的。
功耗测试:平均功耗仅为113W
温度测试和功耗测试是一起进行的。显卡的功耗是通过PCAT套件记录的。影驰RTX 4060金属大师在待机时的平均功耗约为11.9W。满载时的平均功耗可到达113W,峰值功耗可达144W。
噪音测试:测得36.2dBA
从GPU-Z的记录文件中可知,显卡在满载时的转速在全速的60%,具体是在1756RPM左右。我们将RTX 4060金属大师放在环境噪音在约19dBA的消音房里,然后噪声检测仪与显卡的距离为50cm,测得的结果为36.2dBA,还是比较安静的。
超频测试:可提升7.8%
前面说过,RTX 4060金属大师所配的三星GDDR6显存的规格是20Gbps,但实际运行在17Gbps这个速率上。转变成频率的话,也就是2125MHz,而20Gbps对应的是2500MHz,所以我们是有希望把显存超到一个比较高的水平。
在超频环节这里,我们使用的工具仍然是MSI Afterburner。最终结果为,核心提升了260MHz,到达2720MHz,峰值频率甚至能来到2925MHz;显存则提升了400MHz,来到了2525MHz,也就是20.2Gbps。这时候Time Spy的显卡分数达到了11224,提升幅度为7.8%。
总结:低功耗和DLSS 3是最大亮点
得益于Ada Lovelace架构和制程工艺上的进步,RTX 4060在功耗和温度上的表现是让人惊喜的。我们这次首测所用的RTX 4060金属大师,不仅做到了兼容性强的双风扇双槽不越肩设计,平均满载温度也在60度左右,满载功耗更是低到115W。对于小机箱用户来说确实不错。
至于性能方面,在DLSS 3的支持下,RTX 4060确实能给到一个不错的1080P光追游戏体验,2K的话还是略微勉强的。不过要是纵向或者横向对比的话,RTX 4060也许会不及一部分玩家的预期。毕竟有的玩家可能更喜欢原生分辨率战一切,当然,也有一些玩家愿意打开DLSS来获取更高的帧率,这个主要是看大家的使用习惯。
显卡迷你天梯榜 (完整显卡天梯榜)
总的来说,如果你需要Ada Lovelace架构及其独有的DLSS 3功能去提高游戏体验的话,那就这个价格区间而言,RTX 4060确实是独一无二的一张卡。不过正如前文所说,使用习惯,还有游戏支持都是影响一张显卡是否符合预期的重要因素就是了。