1引言&规格对比&外观赏析
引言
RTX4090一经发布就给广大玩家带来了不小的惊喜,新架构新制程新技术,性能提升不可谓不大,但高昂的售价也让不少玩家望而却步。RTX408016GB显卡的问世给更多中高端玩家带来了新的选择,相同的架构,甜品级的性能会是更多人的首选。
影驰作为NVIDIA的核心AIC合作伙伴之一,也发布了旗下的RTX4080显卡,我们这次收到的是影驰GeForceRTX408016GB星曜OC显卡,这代星曜的设计经过全新升级,更强的散热系统助力显卡澎湃释放,更亮眼的ARGB带来非凡的视觉体验,下面就一起看看这代星曜究竟有什么魔力能够让一众玩家钟情于它。
*下文“影驰GeForceRTX408016GB星曜OC”简称为“影驰RTX4080星曜OC”
规格对比
在开始之前,先了解一下本次的主角RTX4080,其采用的是AD103-300核心,TSMC4N工艺制造,芯片面积为379平方毫米,晶体管密度达到了459亿,晶体管数量相比较于上一代产品提升明显,近乎翻倍,而这一代的核心还进一步提升了频率,因此能带来更好的性能表现。
其他参数方面,RTX4080RTX4080标配9728个CUDA,128个第三代RTCores,512个第四代TensorCores,并且用上了16GB的GDDR6X显存,大显存配合性能上的提升更可以为游戏以及创作者带来更好的使用体验。
而目前RTX4080显卡配备的AD103-300核心并不是完整的AD103核心,完整的AD103核心应该包括7个GPC(图形处理集群)、40个TPC(纹理处理集群)、80个SM(流式多处理器)以及一个带有8个32Bit显存控制器的256Bit显存带宽。因此笔者猜测,RTX4080或许不是AD103核心下的终极产物,后续应该还会推出完整AD103核心的RTX4080Ti。
再看看下方的RTX4080的核心结构图,和完整版本的AD103核心对比起来就很容易看出差别,RTX4080核心代号为AD103-300,其拥有4个完整规格的GPC(图形处理集群,每个内建6个TPC),与3个非完整的GPC(两个内建5个TPC,一个内建4个TPC),共组成38个TPC,SM单元则剩下76个,显存位宽还是完整的256Bit。
但是RTX4080上的AD103-300核心在编解码器上砍了一刀,不得不说老黄的刀法精准,编解码器数量直接砍半,与RTX4090同等规格,仅保留了两个NVENC编码器和一个NVDEC解码器,因此完整版的AD103核心应该会有更快的视频编解码速度,不过之前测试过RTX4090,编解码速度相比上一代有着近乎翻倍的提升,想必RTX4080也有不错的表现。
外观赏析:影驰 GeForce RTX 4080 16GB 星曜 OC
影驰的星曜系列一直主打年轻时尚气息,这一代也不例外,单是外包装就让人眼前一亮,包装盒的外部采用彩色镀膜工艺,不同角度下会呈现出不同的色彩变换。
外包装也与其他品牌一贯的产品渲染图不一样,机甲造型的星曜娘屹立在正中央,相当的二次元,给人焕然一新的视觉效果。
正面包装上还标注了这款显卡的型号以及售后支持,支持三年质保以及个人送保。
包装盒的背面则是影驰RTX4080星曜OC的产品特色,如全新升级的星卓Ⅲ散热系统、ARGB灯效展示、黑科技DLSS3以及8K多屏输出支持等等。
包装盒内除了显卡本体之外,还附赠了1个星曜定制显卡支架,1根12VHPWR转3*8Pin的电源转接线,1根5VARGB同步线以及1根显卡支架同步线,另有指南说明书,便捷安装。
接下来就该看看这款显卡的真容了,硕大的包装盒内,影驰RTX4080星曜OC的体积也不容小觑,与RTX3090Ti星曜相比,可以说是有过之而无不及,这款显卡的尺寸来到了352*153*69mm。
正面依旧是熟悉的设计,沿用了上代的纯白美学设计,上盖则是经典的钻石切割工艺打造,全透明设计为ARGB灯效提供了绝佳的展示舞台。
放大看,显卡四周边缘及风扇包边也是钻石切割设计,视觉效果尤为明显,另外这个透明上盖是可以卸下的,玩家可以在白色的面板上打造专属自己的外观。
正面除了透明上盖,另一个吸引眼球的就是三把102mm的散热风扇了,三风扇被水晶外壳包围,棱镜般的钻切花边能够折射出五光十色的ARGB效果。
玩家也可通过影驰官方的魔盘XtremeTuner工具自定义灯光效果,当然除了调节RGB,它还可以显示显卡信息,调整风扇曲线以及超频等,后面我们将用这款工具对影驰RTX4080星曜OC进行超频测试。
再说回散热风扇,每把风扇上配有11片磨砂材质的静霜扇叶,不仅风力风量更大,磨砂材质对ARGB的折射有一种特殊的效果,极具科技感。
与其他高端显卡一样,影驰RTX4080星曜OC的背板是一体压铸而成的金属背板,几乎全白的设计,与正面遥相呼应,要知道上代RTX3080还是黑色的背板,全白的设计质感一下就上来了。
金属背板的尾部是大面积的镂空设计,配合新的散热系统有助于热量导出。
显卡的顶部非常平整,首先映入眼帘的是正中间的信仰Logo“BOOMSTAR”,多层折射镜面设计,在ARGB灯效下光彩夺目,与定制的显卡支架一起使用有不一样的视觉效果
并且顶部的Logo灯牌自带检测功能,黄灯表示显卡外接供电异常,而红灯则表示主板异常。
Logo灯牌的旁边便是GEFORCERTX字样,平整设计加上一整排的鳍片出风口,减少了气流阻隔,散热效果值得期待。
显卡底部同样有大面积的鳍片出风口,并且这里还可以看到PCB上配有铝合金的保护中框,毕竟RTX4080的重量大家也都知道,金属中框有更好的保护能力,避免显卡弯折。
显卡供电用的是全新的12VHPWR供电接口,单口可提供600W供电能力,用来应付RTX4080绰绰有余,使用一根12VHPWR的电源线就可达到供电需求,如果用户使用的是ATX2.0标准的电源,也可以使用附赠的电源转接线来进行使用。
显卡金手指为标准的PCIe4.0x16速率,在使用前一定要在主板打开ResizableBAR功能,这张显卡的性能才能完全释放。
新的星卓III散热系统相当厚实,整张显卡来到了三槽多的厚度,接口还是三个DP1.4a和一个HDMI2.1,完美支持8KUHD60Hz输出。
总的来说,影驰RTX4080星曜OC的外观设计在众多AIC非公显卡中,个人绝对最好看的一张,整体的灯效恰到好处,和极具设计感的造型相得益彰。
2显卡拆解
显卡拆解:影驰 GeForce RTX 4080 16GB 星曜 OC
开箱完显卡接着做一个简单的拆解吧,一起看看影驰给这款RTX4080究竟堆了什么豪华硬件,卸下金属背板的螺丝就可以分离显卡PCB和硕大的散热器了。
首先看看影驰RTX4080星曜OC的PCB,显然这是一块非公版PCB,采用12层高规格工艺打造,越肩设计,比一般的显卡都要再高一些,不过PCB上的接口、供电、核心、显存,以及辅助供电位置都相当的合理且规正。
PCB的正中央的就是本次的主角——AD103-300-A1核心,采用全新AdaLovelace架构和TSMC4N工艺,可实现高达2倍的性能功耗比飞跃。
核心的四周就是8颗美光的GDDR6X显存,型号为2PU47D8BZF,单颗显存容量2GB,8颗组成16GB,显存位宽为256Bit,速度达到了22.4Gbps。
RTX4080作为次旗舰,供电规模也相当豪华,影驰RTX4080星曜OC的供电模组被安排在PCB的两侧,采用18+3相数字供电。其中18相为显卡核心供电,3相为显存供电。
每相供电使用的都是安森美的独立DrMos芯片,型号为NCP302150,持续输出电流为50A。
核心供电DrMos
显存供电DrMos
PWM供电控制芯片被放在了PCB的背面,型号分别是uP9512R、uP9529Q以及uS5650Q,其中uP9512R与uP9529Q共同管理核心供电,可以做精细化的供电管理,而uS5650Q则是主要负责显存供电部分。
uP9512R芯片
uP9529Q芯片
S5650Q芯片
影驰RTX4080星曜OC采用的是全新的12VHPWR供电接口,通过一根12VHPWR的电源线就可以完成对于显卡的供电。
看完了堆料配置,该看看这款显卡的散热如何了,这次的星卓III散热系统与RTX4090上的是同规格,配置相当豪华,散热器的中间是大面积的均热板,影驰在均热板上为显存、电感、MOS管接触的地方用上了高系数的导热垫辅助散热。
GPU核心处也抹上了厚厚的硅脂,与前代显卡不同,这代显卡上的显存紧贴真空腔均热板,可见GDDR6X显存超强性能带来的发热量也是巨大的。
另外虽然显存被安排在PCB的正面,但固定PCB的金属背板上在显存和GPU核心位置依然贴了导热垫,可以从背板处导热,散热效能拉满了已经。
硕大的散热器被分为左右两段式结构,用的是散热效能更强的导流型鳍片。
散热器的正面更是一整面的纯鳍片,保障风道提升散热能力,另外鳍片的外框还添加了一个加强件用于保护鳍片不变形。
隐藏在一整排鳍片下的是4根8mm和5根6mm共同组合而成的镀镍复合热管,贯穿整个散热器,回流焊接工艺加持保证高效导热。
星卓III散热系统上还有3个102mm的大直径风扇作为主动散热,厚度达20mm,相比普通15mm的风扇来说,散热效能提升显著。
风扇也经过全新升级,每把风扇配备了11片静霜扇叶,进风量相比前代更大,风流更强劲,并且支持智能启停,显卡空闲时它也能“冷静”下来。
3测试平台&理论/游戏性能
测试平台介绍
高端显卡自然配置不能低,我们也搬出了目前地表最强的硬件来进行测试,CPU用的是Inteli9-13900K,主板为ROGMAXIMUSZ790HERO,内存插满,直接上金士顿的64GBDDR5-6000,这样才能保证影驰RTX4080星曜OC的性能释放充分。
之前测试RTX4090时就见识到其甚至能跑8K分辨率的实力,作为次旗舰的影驰RTX4080星曜OC自然不容小觑,所以我们在显示器上选择了爱攻&保时捷联名设计的AGONPD32M,miniLED背光、4K、144Hz一应俱全,用它来感受次世代显卡的性能最合适不过。
上机测试前,还是依照惯例,先看看GPU-Z,从软件中可以看到影驰RTX4080星曜OC的基准频率为2205MHz,Boost频率可以达到2580MHz,高于FE公版的2505MHz,并且可以看到此时主板的ResizableBAR功能已开启,显卡能够做大限度的发挥出其全部性能。
另外GPU-Z最近也更新了,新增了监控16Pin电源输入,我们在图中还可以了解到这款显卡的温度和功耗限制,影驰RTX4080星曜OC的TGP设定是320W,与公版一致,允许最高限度450W;温度控制的上限为84℃,不过可向上调整至88℃,应该是给极客玩家预留超频空间。
理论性能测试
国际惯例,先测试影驰RTX4080星曜OC的理论性能,为了更直观的展现性能,我们加上了前代卡皇RTX3090Ti进行对比。
在3DMark的FireStrike测试中,影驰RTX4080星曜OC表现亮眼,4K分辨率下领先RTX3080Ti38%以上,在以DX12为代表的TimeSpy测试中,同样是4K分辨率,新显卡得分13917,一样甩开前作几条街,总的来说影驰RTX4080星曜OC几乎可以在4K分辨率下流畅运行大多数3A大作,4K@120Hz已经不是问题,即将剑指8K。
光追和DLSS作为NVIDIA的看家本领,影驰RTX4080星曜OC的表现依旧强势,RTX4080的光追性能在这一代确实得到了很大提升,RTX3090Ti在PortRoyal中得分1W4,而影驰RTX4080星曜OC得分18043,性能领先30%以上,可见40系显卡对光追特效的优化已经提升到了一个新的层面。
在AIDA64GPGPU理论性能测试中,影驰RTX4080星曜OC也展现出高端显卡应有的实力,无论是跟前代RTX3080Ti比还是跟RTX3090Ti比,它的性能都称得上是碾压级别的,领先幅度达到了40%以上,单是显存复制一项,影驰RTX4080星曜OC的性能就是RTX3080Ti的三倍左右。
游戏性能测试
理论性能的提升巨大,但俗话说得好“不看广告看疗效”,我们选用多款游戏在不同分辨率下实测这款显卡的性能表现。
上一代RTX3080Ti的性能已经能够流畅游玩1080P分辨率下的3A大作了,更不用说这一代了,在1080P分辨率下,《古墓丽影:暗影》甚至突破300FPS,已经达到了不少电竞网游的水平了。
2K分辨率对影驰RTX4080星曜OC也是轻轻松松,测试的游戏基本都能够达到144FPS上,整体游戏性能也领先前代近35%。
4K分辨率下影驰RTX4080星曜OC优势更加明显,架构革新和大缓存在游戏中大放异彩,像优化不怎么好的《赛博朋克2077》在开启超级光追的条件下,影驰RTX4080星曜OC依旧可以接近90FPS,而优化不错的《地平线5》,影驰RTX4080星曜OC甚至可以满足4K@144Hz。
8K分辨率对RTX4080就有一些压力了,不过部分游戏依旧能够达到60FPS以上,像《荒野大镖客2》,影驰RTX4080星曜OC跑出了67FPS的成绩,8K游戏这在以前几乎是不敢想的存在,现在依旧指日可待了,可见这代显卡的强大性能,升级影驰RTX4080星曜OC,一步到位,感受4K甚至8K电竞的乐趣。
总的来说,影驰RTX4080星曜OC在2K、4K分辨率下相比前代RTX3080Ti有着明显优势,不少以前只可以勉强60FPS运行的游戏,在这代显卡上已经能够流畅运行了,搭配DLSS后,更是能够上到100FPS,如果稍微降点画质,甚至4K@144Hz都能够实现。
4DLSS 3性能测试
DLSS 3性能测试
用过20系及以上显卡的玩家对DLSS应该都不陌生,玩家更是亲切的称其为“大力水手”,之所以这么称呼,是因为DLSS可以在不影响画面质量的情况下提升游戏性能。今年的RTX40系上的DLSS也更新至3.0版本,新增帧生成和NVIDIAReflex技术,实现游戏性能的翻倍提升,我们也选择了多款软件和游戏对这项技术进行实测,看看究竟到底有没有这么神。
3DMarkDLSS3性能测试
首先是DLSS3的理论性能测试,影驰RTX4080星曜OC在3DMark的DLSS3Benchmark中表现惊人,4K分辨率下,开关DLSS3性能差距能够达到3倍以上。要说恐怖的还不止4K,8K分辨率下,关闭DLSS3,帧数仅有1.56FPS,直接卡成PPT,而开启DLSS3后,帧数将近70FPS,不得不说老黄的DLSS3确实有点东西。
《光明记忆:无限》游戏实测
相信不少玩家也好奇DLSS3在实际游戏中的表现如何,这里我们选用《光明记忆:无限》这款游戏进行对比实测。
在不开启DLSS时,其实影驰RTX4080星曜OC已经可以在4K分辨率下流畅运行了,开启DLSS2后,性能已经翻倍,帧数为137FPS,而开启DLSS3后,性能还能更进一步,直逼170FPS,这样的帧数已经能够满足4K@144Hz的电竞需求。搭配我们前面提及的AGONPD32M,感受高端显卡带来的游戏新体验。
2K分辨率与4K分辨率DLSS性能测试
我们还实测了多款游戏,篇幅关系没办法一一展示,这里汇总为一张表格供大家参考,不过从实测中可以看出架构的革新和工艺制程的进步确实让影驰RTX4080星曜OC的游戏性能有了长足的进步,在2K下,只开DLSS2就已经超越RTX3080Ti了。
4K分辨率下更是拉出了差距,有DLSS3的加持,完全是影驰RTX4080星曜OC的主场,在部分测试软件中,有着近乎两倍RTX3080Ti的游戏性能表现。
8K分辨率DLSS3性能测试
测完2K和4K,相信有不少人好奇这款RTX4080能够流畅玩8K游戏吗,实测下来不得不说老黄的刀法还是精准,即使有DLSS3加持,由于8K游戏占用显存过大,显卡存在爆显存的问题,只有少部分游戏或项目能够勉强跑到60FPS,如果后续游戏厂商能够优化显存占用,那RTX4080体验8K@60Hz还是有可能的。
UnrealEngine5EnemiesDEMO
最后我们也测试了UnrealEngine5引擎制作的EnemiesDEMO,UE5作为全新的游戏开发引擎,对显卡的压力自是不小,而影驰RTX4080星曜OC在DLSS3的加持下展现出了超强的实力,4K分辨率下可达77AVG/661%FPS/55ms的水平,而关闭DLSS3后仅有22AVG/171%FPS/195ms,几乎3倍以上的游戏流畅度提升。
并且从视频中可以看出,即使开启DLSS3后,画质几乎没有区别,由于DLSS是利用AI进行渲染,在部分细节上,DLSS模式下的画质甚至比原生画质还要清晰。
5创作者&双编码器测试
创作者性能测试
16GB大显存和算力升级可不只是为了游戏性能,影驰RTX4080星曜OC在部分生产力软件中也颇有建树,这里我们选择PugetBench、PCMark10这两款常见的测试软件,来测试这款显卡在日常办公、视频内容生产等方面的性能表现。
在模拟日常办公的PCMark10测试中可以看到影驰RTX4080星曜OC在数位内容创作上提升明显;在Adobe软件中也有一定的提升,不过Adobe软件并不吃显卡性能,影驰RTX4080星曜OC的优势更多体现在大显存能够运行处理更复杂的项目,像RTX3080Ti12GB的显存在处理复杂特效时往往容易崩溃,新显卡则没有这种困扰。
另外由于达芬奇支持全新的AV1编码,影驰RTX4080星曜OC在这方面也有不小的优势,相比前代领先了16%以上,视频工作者不要错过这款显卡,它的能力超乎你想象。
测完视频生产力,我们也测试了影驰RTX4080星曜OC在建模、渲染、工业设计等软件上,不测不知道,一测吓一跳,单是在Blender渲染软件中,影驰RTX4080星曜OC相比前代RTX3080Ti就有50%以上的提升,面对RTX3090Ti也丝毫不虚,性能领先45%。
在SPECviewperf2020集成的8款工业软件测试中,得益于大显存和架构的革新,英雌RTX4080星曜OC依旧全方位领先,性能比RTX3080Ti强出34%以上,专业领域的用户这回真是捡到宝了。
双NVENC编码器专项测试
要说这RTX40系的第二个升级就是双编码器NVENC,支持时下热门的AV1编码,而AV1作为下一代主流的视频编码技术有着自己独特的优势,其具有更快的编码速度和更高质量的流媒体传输性能,像达芬奇、万兴喵影、剪映等常用的剪辑软件已经支持AV1编码,B站等主流的视频网站也加入了AV1解码,未来AV1将会成为一个新趋势。
所以我们也测试了影驰RTX4080星曜OC的AV1编码能力,在NVIDIA提供的8K片源与工程文件中,影驰RTX4080星曜OC与自家老大哥RTX4090实力不相上下。同一段素材使用AV1编码时比H.265编码所需用时更短,即便同样用H.265编码,影驰RTX4080星曜OC的双编码器也比前代快上62%。
另外采用AV1编码的文件,在文件占用上也有不小的优势,从下图可以看到无论是4K还是8K分辨率,采用AV1编码后的视频文件均比H.265格式要小一些,平均能够降低25%的占用空间。
AV1编码不仅可以大幅降低文件占用空间,画质也与H.265没有区别,我们截取了几个画面进行对比,从肉眼来看,其实画质几乎完全一样,这样也意味着AV1可以用更小的空间占用量实现与H.265同等规格的画质表现。如果你是一名视频后期,不妨考虑升级这款影驰RTX4080星曜OC,强劲的性能和独有的AV1编解码让你的创作如虎添翼。
6超频&功耗&评测总结
功耗与发热
之前测试RTX4090时就已经被它的功耗与发热所震惊,烤机都只有60多℃,那用上了4090同款散热器的影驰RTX4080星曜OC表现究竟如何,我们一探究竟。
使用Furmark单烤15分钟后,显卡占用率拉满的情况下,影驰RTX4080星曜OC的GPU频率稳定在2700MHz上下,核心温度仅有62.8℃,显存结温也是只有54℃。如果是待机温度,那这代显卡的温度也相当惊人,GPU在待机下不到30℃,比CPU还凉快。
单温度低还不够,这款显卡的功耗和噪音控制都不错,功耗最高只去到330W左右,而前代卡皇RTX3090Ti的功耗已经390W了,影驰RTX4080星曜OC用更低的功耗实现了更强的性能,并且风扇转速也还没有满载,几乎没有噪音。
超频测试
前面提到影驰RTX4080星曜OC给显卡定的TGP最高可以去到420W,显示是给超频留出空间,因此我们也不能错过这张显卡的超频,下面我们就用影驰的XTREMETUNER魔盘小超一下这款显卡。
将风扇转速拉至100%,并且同时解锁GPU核心电压限制、功耗限制以及温度限制后,我们成功将影驰RTX4080星曜OC的GPU频率提升到3075MHz,这个频率已经摸到不少RTX4090的车尾灯了,GDDR6X显存的频率更能超,直接超频1000MHz完全没问题。
默频状态TimeSpy测试
超频状态TimeSpy测试
超频后我们运行了3DMark中的TimeSpy测试,影驰RTX4080星曜OC跑出了30496分的成绩,相比默频状态下的28488分提升7%左右,并且此时GPU核心和显存都运行在高频状态,可见这代显卡性能之卓越,星卓III散热系统之高效。
评测总结
实测下来,给我的感受就是RTX40系显卡诚意满满,Ada架构与DLSS3双管齐下,让本就强悍的游戏性能更进一步,双NVIDIA编解码器的加入,专业性能也有质的飞跃,这代更是换上了TSMC4N定制工艺,能耗比与温控更是“离谱”,全新的RTX40系显卡可谓是从里到外处处皆惊喜。
说回本次测试的影驰GeForceRTX408016GB星曜OC,其性能对比上代RTX3080Ti可以说是降维打击,即使是跟之前的旗舰RTX3090Ti相比,它的游戏性能和创作能力也丝毫不虚,更低的功耗但却带来更强的性能,更有独家黑科技加持,像DLSS3、双编码器等的加入,不仅让游戏玩家感受技术革新带来的全新体验,也为专业领域的用户提升更快的效率,不可谓升级不大。
再谈谈影驰RTX4080星曜OC的设计,白色透明的设计,时尚前卫的外观,还有高度自定义的DIY空间,这才是DIY应该有的样子,新版ARGB灯效的加持下,RGB灯光在钻切水晶内流光溢彩,颜值可圈可点。
笔者认为,影驰RTX4080星曜OC单从性能上看,表现无可挑剔,相比起旗舰RTX4090,它更适合游戏爱好者选择,如果你打算升级一款性能强劲的高端显卡,那影驰RTX4080星曜OC就是你的不二之选。
7ADA架构讲解
Ada Lovelace架构讲解
Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那AdaLovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。
从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RTCore单元,以及面向AI推理的TensorCore单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RTCore和三代TensorCore基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到AdaLovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代RTCores与第四代TensorCores单元,同时加入众多新颖的黑科技,从执行效率来说AdaLovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。
全新的SM流式多处理器
AdaLovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RTCores,4个第四代TensorCores(张量核心)、4个TextureUnits(纹理单元)、256KBRegisterFile(寄存器堆),以及128KBL1数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。
过去的Turing架构INT32计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。
再来看看AdaLovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForceRTX4080拥有76个SM,9728个CUDA核心,那你也就应该明白达82.6TFLOPS的着色器能力是如何实现的了,比上一代的RTX3090Ti显卡的40TFLOPS,还真是提升了两倍有多。
另外缓存方面AdaLovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128KB的缓存,这样RTX4080显卡中就实现了97MBL1/共享内存。其次核心的二级缓存进行进行了重新的设计,并且完整AD103核心与RTX4080都是64MB二级缓存,相比RTX3080Ti可以说是质的飞跃。
技术讲解:第三代RT Cores与第四代Tensor Cores
以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上AdaLovelace架构最大的提升还是在第三代RTCores与第四代TensorCores身上。
第三代RTCores
RTCores用于光线追踪加速,第三代RTCores的有效光线追踪计算能力达到191TFLOPS,是上一代产品2.8倍。
在Ampere架构中,第二代RTCores支持边界交叉测试(BoxIntersectiontesting)和三角形交叉测试(TriangleIntersectiontesting),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。
所以在第三代RTCores增加了两个重要硬件单元:OpacityMicromapEngine与DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine,主要是用于alpha通道的加速,可以将alpha测试几何体的光线追踪速度提高2倍。
在传统光栅渲染中,开发人员使用一些Alpha通道的素材来实现更高效的画面渲染,例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。
而OpacityMicromapEngine用于直接解析具有非不透明度光线交集的不透明度状态
三角形。根据Alpha通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。
DisplacedMicro-MeshesEngine
如果说OpacityMicromapEngine加速的是面处理,那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示,在AdaLovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RTCores更低,效率也更高。
通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在AdaLovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。DisplacedMicro-MeshesEngine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样DisplacedMicro-MeshesEngine就可以帮助BVH加速过程,减少构建时间和存储成本。
同时AdaLovelace架构SM中新增了着色器执行重排序(ShaderExecutionReordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代RTCores与第四代TensorCores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用GPU资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。
第四代TensorCores
TensorCores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代TensorCores新增FP8引擎,具有高达1.32petaflops的张量处理性能,超过上一代的5倍。
8技术讲解:DLSS 3
技术讲解:DLSS 3
或者说第四代TensorCores太硬核你不会知道是啥?提升意义在哪?但是TensorCores最经典的应用DLSS你肯定会知道,这一次AdaLovelace架构支持NVIDIA最新的DLSS3技术。
https://images.nvidia.cn/cn/youtube-replicates/r-hu006p23I.mp4
之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。
在DLSS3中包含了三项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS2)和NVIDIAReflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS帧生成技术;而后两技术中,DLSS超分辨率只需要GeForceRTX显卡都能使用上,NVIDIAReflex则是GeForce900系列以后的显卡都用使用上。
想实现DLSS帧生成可不简单,这需要配合上AdaLovelace架构的GeForceRTX40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助GeForceRTX40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。
从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而AdaLovelace架构的光流加速器升级到了第二代,其提供了高达300TeraOPS(TOPS),比安培架构的初代光流加速器(OpticalFlowAcceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。
另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForceRTX40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。
最后由于DLSS3是建立在DLSS2基础之上的,游戏开发者可以在已支持DLSS2或NVIDIAStreamline的现有游戏中快速集成该功能,所以DLSS3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。
阅读小亮点:NVIDIAReflex
NVIDIAReflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。
想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex技术。
当GeForceRTX40系列显卡和NVIDIAReflex搭配上后,直接达到1440p分辨率360FPS的体验,这着实是性能有点强劲了。
在GTC2022大会时已经透露将会还有4款1440p分辨率的新型G-SYNC电竞显示器将要发布,包括采用mini-LED技术的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款显示器刷新率均为300Hz,而最猛的是ASUSROGSwift360HzPG27AQN,刷新率直接来到了360Hz。
但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p360Hz是很美好,但现实也是相当的骨感。
9技术讲解:双NVIDIA编码器
技术讲解:双NVIDIA编码器(MVENC)
GeForceRTX40系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265,还支持开放式视频编码格式AV1。
而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinciResolve、以及AdobePremierePro较为流行的Voukoder插件均支持,且均可通过编码预设使用双编码器,这样我们等待视频导出的时间缩短将近一半。
不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1编码器可将效率提高40%,同时显卡的占用也更低。包括OBSStudio一一代软件中也会增加AV1格式的支持。另外我们还能通过GeForceExperience和OBSStudio录制高达8K60的内容,这样我们做游戏录制也会变得更为轻松。
包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。